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为 什么 要 与 这 本 市 








目前 国内 计算 机 书籍 的 一 个 明显 束 病 惑 是 内 容 宽泛 而 空调 。 很 多 书 
籍 长 篇 大 论 ， 恨 不 得 宫 括 所 有 最 新 的 技术 ， 但 连 一 个 最 基本 的 技术 细 市 
也 无 法 解释 清楚 。 有 些 书籍 给 读者 展现 的 是 网 络 上 随处 可 见 的 知识 ， 基 
本 没有 自己 的 观点 ， 甚 至 连 一 点 自己 的 总 结 都 没有 。 反 观 大 师 们 的 经 典 
书籍 ， 整 本 书 只 专注 于 一 个 问题 ， 而 且 对 每 个 技术 细节 的 描述 都 是 精 膨 
细 琢 。 最 关键 的 是 ， 我 们 在 阅读 这 些 经 典 书籍 时 ， 似 乎 是 在 用 心 与 一 位 


编程 高 手 交 流 ， 这 绝对 是 一 种 享受 。 








我 们 把 问题 缩小 到 计算 机 网 络 编程 领域 。 关 于 计算 机 网 络 编程 的 相 
天书 籍 ， 不 得 不 提 的 是 已 故 网 络 教育 巨 乒 W'Richard Stevens 先 生 的 
《ITCP/P 协 议 详解 》《〈 三 卷 本 ) ， 以 及 《UNIX 网 络 编程 》 《两 卷 
本 ) 。 作 为 一 名 网 络 程序 员 ， 即 使 没有 阅读 过 这 几 本 书 ， 也 应 该 听 说 过 
它们 。 但 这 几 本 书 中 的 内 容 实 在 是 太 庞 大 了 ， 没 有 耐心 的 读者 根本 不 可 
能 把 它们 全 部 读 完 。 而 且 对 于 英文 不 太 好 的 朋友 来 说， 选择 阅读 其 翻译 
版 本 义 有 失 原 汁 原味 。 





基于 以 上 两 点 原因 ， 笔 者 编写 了 这 本 《Linux 高 性 能 服务 器 编 
程 》。 本 书 是 笔者 多 年 来 学 习 网 络 编程 之 总 结 ， 是 在 充分 理解 大 师 的 作 


品 并 融入 自己 的 理解 和 见解 后 写成 的 。 本 书 讨论 的 主题 和 定位 很 明确 。 
简单 来 说 就 是 : 如 何 通 过 各 种 手段 编写 高 性 能 的 服务 器 程序 。 


网 络 技术 是 在 不 断 向 前 发 展 的 ， 比 如 Linux 提 供 的 epoll 机 制 就 是 在 
内 核 2.6 版 本 之 后 才 正 式 引 入 的 。 但 是 ， 编 程 思想 却 可 以 享用 一 辈子 。 
我 们 在 不 断 学 习 并 使 用 新 技术 ， 不 断 适 应 新 环境 的 同时 ， 书 中 提 到 的 网 
络 编程 思想 能 让 我 们 看 得 更 远 ， 想 得 更 多 。 笔 者 相信 ， 没 有 谁 会 认为 
W'Richard Stevens 先 生 的 网 络 编程 书籍 过 时 了 。 








读者 对 象 


阅读 本 书 之 前 ， 读 者 需要 了 解 基本 的 计算 机 网 络 知识 ， 并 具有 一 定 
的 Linux 系 统 编程 和 C++ 编程 基础 ， 否 则 阅读 起 来 会 有 些 困难 。 本 书 读者 
对 象 主要 包括 : 


DQLinux 网 络 应 用 程序 开发 人 员 
DLinux 系 统 程序 开发 人 员 
DC/C++ 程 序 开发 人 员 


口 对 网 络 编程 技术 感 兴趣 ， 或 希望 参与 网 络 程序 开发 的 人 员 





口 开设 相关 诬 程 的 大 专 院 校 师 生 


本 书 特 色 


本 书 的 特点 : 不 求 彤 容 宽泛 ， 但 求 专 而 精 ， 深 入 地 剖析 服务 器 编程 
的 要 素 ; 不 求 内 容 精 准 ， 但 求 融 入 笔者 自己 的 理解 和 观点 ， 可 谓 “ 男 
眼看 服务 器 编程 。 


如 何 提 高 服务 器 程序 性 能 是 本 书 要 着 重 讨论 的 。 第 6、8、9、11、 
12、15、16 等 章 中 都 用 了 相当 的 篇 幅 讨论 这 一 主题 。 其 论述 方法 是 : 首 
先 ， 探 讨 提高 服务 器 程序 性 能 的 一 般 原 则 ， 比 如 使 用 * 池 ?以 牺牲 空间 换 
取 效 率 ， 使 用 零 找 贝 函数 以 避免 内 核 和 用 户 空间 的 切换 等 ， 其 次 ， 介 绍 
一 些 高 效 的 编程 模式 及 其 应 用 ， 比 如 使 用 有 限 状 态 机 来 分 析 用 户 数 据 ， 
使 用 进程 池 或 线程 池 来 处 理 用 户 请 求 ， 最 后 ， 探 讨 如 何 通 过 调整 系统 参 
数 来 从 服务 器 程序 外 部 提高 其 整体 性 能 。 


光 说 不 练 假 把 式 。 如 果 没 有 实例 ， 或 者 只 是 给 出 儿 个 “Hello 
World”， 那 么 本 书 就 真 没有 出 版 的 必要 了。 笔者 要 做 的 是 让 读者 能 真正 
把 理论 和 实践 完美 地 结合 起 来 。 在 写作 本 书 之 前 ， 笔 者 阅读 了 不 少 开源 
社区 的 优秀 服务 器 软件 的 源 代码 ， 自 己 也 写 过 相当 多 的 小 型 服务 器 程 
序 。 这 些 软件 中 那些 最 精彩 的 部 分 ， 在 书 中 都 有 充分 的 体现 。 比 如 第 15 
章 给 出 的 两 个 实例 一 一 用 进程 池 实 现 的 简单 CGI 服务 器 和 用 线程 池 实 现 
的 简单 Web 服 务 器 ， 就 充分 展现 了 如 何 利用 各 种 提高 服务 器 性 能 的 手段 
来 高 效 地 解决 实际 问题 。 


此 外 ， 为 了 帮助 读者 进一步 把 书 中 的 知识 融 汇 到 实际 项 目 中 ， 笔 者 
还 特意 编写 了 一 个 较为 完整 的 负载 均衡 服务 器 程序 springsnail。 该 程序 








能 从 所 有 效 辑 服务 器 中 选取 负荷 最 小 的 一 台 来 处 理 新 到 的 客户 连接 。 
这 个 程序 中 ， 使 用 了 进程 地、 有 限 状态 机 、 高 效 数 据 结构 来 提高 其 性 

; 同时 ， 细 致 地 封装 了 每 个 函数 和 模块 ， 使 之 更 符合 实际 工程 项 目 。 
由 于 篇 幅 的 限制 ， 笔 者 未 将 该 程序 的 源 代 码 列 在 书 中 ， 读 者 可 从 华章 网 
站 由 上 下 载 它 。 














[1] 参见 华章 网 站 www.hzbook.com。 编辑 注 
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如 何 阅读 本 书 


本 书 分 为 三 篇 : 


AAA 


第 一 篇 〈 第 1 一 4 章 ) 介绍 TCP/IP 协 议 族 及 各 种 重要 的 网 络 协 议 。 
有 很 好 地 理解 了 底层 TCP/IP 通 信 的 过 程 ， 才 能 编写 出 高 质量 的 网 络 应 用 
程序 。 毕 竟 ， 坚 实 的 基础 设施 造就 稳固 的 上 层 建 筑 








第 二 篇 《第 5 一 15 章 ) 细致 地 剖析 了 服务 器 编程 的 各 主要 方面 ， 其 
中 对 每 个 重要 的 概念 、 模 型 以 及 函数 等 都 以 实例 代码 的 形式 加 以 阐述 。 
一 篇 义 可 细 分 为 如 下 四 个 部 分 


口 第 一 部 分 〈 第 5 一 7 章 ) 介绍 Linux 操 作 系 统 为 网 络 编程 提供 的 众 
多 API。 这 些 API 吏 像 是 基本 的 音符 ， 我 们 通过 组 织 它 们 来 谱写 优美 的 





口 第 二 部 分 (第 8 对 ) 探讨 高 性 能 服务 器 程序 的 一 般 框架 。 在 这 一 

分 中 ， 我 们 将 服务 器 程序 解构 为 JO 单 元、 逻辑 单元 和 存储 单元 三 
部 件 ， 并 重点 介绍 了 IO 单元 、 逻 辑 单 元 的 几 种 高 效 实 现 模式 。 此 外 ， 
我 们 还 探讨 了 提高 服务 需 性 能 的 其 他 建议 。 








口 第 三 部 分 〈 第 9 一 12 章 ) 深入 剖析 服务 器 程序 的 IO 单元 。 我 们 将 
探讨 VO 单元 需要 处 理 的 VO 事件 、 信 号 事件 和 定时 事件 ， 并 介绍 一 球 优 








秀 的 开源 IO 框架 库 


[Libevent。 





口 第 四 部 分 〈 第 13 一 15 章 ) 深入 谢 析 服务 器 程序 的 逻辑 单元 。 这 一 
部 分 我 们 要 讨论 多 线程 、 多 进程 编程 ， 以 及 高 性 能 逻辑 处 理 模型 一 一 进 
程 池 和 线程 池 ， 并 给 出 相应 的 实例 代码 。 

第 三 篇 〈 第 16 一 17 章 ) 探讨 如 何 从 系统 的 角度 优化 和 监测 服务 器 性 


能 。 本 篇 的 内 容 涉 及 服务 器 程序 的 调制 、 调 试 和 测试 ， 以 及 诸多 常用 系 
统 监 测 工 具 的 使 用 。 


项 误 和 文 持 


由 于 作者 的 水 平 有 限 ， 加 之 编写 时 间 仓 促 ， 书 中 难免 会 出 现 一 些 错 
误 或 者 不 准确 的 地 方 ， 恳 请 读者 批评 指正 。 书 中 的 全 部 源 文件 都 可 以 从 
华章 网 站 下 载 。 如 果 您 有 更 多 的 宝贵 意见 或 建议 ， 也 欢迎 发 送 邮 件 至 邮 
箱 pjhq87@gmailcom， 期 符 能 够 得 到 您 的 真挚 反 饥 。 
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TCP/IP 通 信和 案例 : 访问 Internet 上 的 Web 服 务 器 


第 1 章 ”TCP/IP 协 议 族 


现在 Intermet (因特网 ) 使 用 的 主流 协议 族 是 TCP/P 协 议 族 ， 它 是 一 
个 分 层 、 多 协议 的 通信 体系 。 本 半 简 要 讨论 TCP/IP 协 议 族 各 层 包 含 的 主 
要 协议 ， 以 及 它们 之 间 是 如 何 协 作 完 成 网 络 通信 的 。 


TCP/P 协 议 族 包含 众多 协议 ， 我 们 无 法 一 一 讨论 。 本 书 将 在 后 续 章 
节 详 细 讨 论 耻 协议 和 TCP 协 议 ， 因 为 它们 对 编写 网 络 应 用 程序 具有 最 直 
接 的 影响 。 本 章 则 简单 介绍 其 中 几 个 相关 协议 : ICMP 协 议 、ARP 协 议 
和 DNS 协议 ， 学 习 它 们 对 于 理解 网 络 通信 很 有 帮助 。 读 者 如 果 想 要 系统 
地 学 习 网 络 协 议 ， 那 么 RFC (Request For Comments， 评 论 请 求 ) 文档 
无 疑 是 首选 资料 。 








1.1 TCP/IP 协 议 族 体系 结构 以 及 主要 协议 


TCP/IP 协 议 族 是 一 个 四 层 协 议 系统 ， 自 底 而 上 分 别 是 数据 链 路 层 、 
网 络 层 、 传 输 层 和 应 用 层 。 每 一 层 完成 不 同 的 功能 ， 且 通过 知 干 协议 来 
实现 ， 上 层 协议 使 用 下 层 协议 提供 的 服务 ， 如 图 1-1 所 示 。 














应 用 层 用 户 空间 
-=---------------+-----------------------------]---------------]-- socket 
传输 层 
网 络 层 内 核 空间 
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图 1-1 TCP/IP 协 议 族 体系 结构 及 主要 协议 


1.1.1 数据 链 路 层 


数据 链 路 层 实现 了 网 卡 接口 的 网 络 驱 动 程序 ， 以 处 理 数据 在 物理 媒 
介 《 比 如 以 太 网 、 令 牌 环 等 ) 上 的 传输 。 不 同 的 物理 网 络 具 有 不 同 的 电 
气 特性 ， 网 络 驱 动 程序 隐藏 了 这 些 细节 ， 为 上 层 协 议 提供 一 个 统一 的 接 
口 。 








数据 链 路 层 两 个 常用 的 协议 是 ARP 协 议 (Address Resolve 
Protocol， 地 址 解析 协议 ) 和 RARP 协 议 (Reverse Address Resolve 
Protocol， 逆 地 址 解析 协议 ) 。 它 们 实现 了 IP 地 址 和 机 器 物理 地 址 ( 通 
常 是 MAC 地 址 ， 以 太 网 、 令 牌 环 和 802.11 无 线 网 络 都 使 用 MAC 地 址 ) 
之 间 的 相互 转换 。 


网 络 层 使 用 IP 地 址 寻 址 一 台 机 器 ， 而 数据 链 路 层 使 用 物理 地 址 寻 址 
一 人 台 机 器 ， 因 此 网 络 层 必须 先 将 目标 机 器 的 耳 地 址 转化 成 其 物理 地 址 ， 
才能 使 用 数据 链 路 层 提 供 的 服务 ， 这 就 是 ARP 协 议 的 用 途 。RARP 协 议 
仅 用 于 网 络 上 的 茶 些 无 盘 工 作 站 。 因 为 缺乏 存储 设备 ， 无 盘 工 作 站 无 法 
记 住 自己 的 人 P 地 址 ， 但 它们 可 以 利用 网 卡 上 的 物理 地 址 来 同 网 络 管理 者 
(服务 器 或 网 络 管理 软件 ) 碍 询 目 身 的 耳 地 址 。 运 行 RARP 服 务 的 网 络 
管理 者 通常 存 有 该 网 络 上 所 有 机 器 的 物理 地 址 到 IP 地 址 的 映射 。 








由 于 ARP 协 议 很 重要 ， 所 以 我 们 将 在 后 面 章节 专门 讨论 它 。 





1.1.2 ”网 络 层 





网 络 层 实现 数据 包 的 选 路 和 转发 。WAN (Wide Area Network， 广 
域 网 ) 通常 使 用 众多 分 级 的 路 由 器 来 连接 分 散 的 主机 或 LAN (Local 
Area Network， 局 域 网 ) ， 因 此 ， 通 信 的 两 台 主 机 一 般 不 是 直接 相连 
的 ， 而 是 通过 多 个 中 间 节 点 《路 由 器 ) 连接 的 。 网 络 层 的 任务 就 是 选择 
这 些 中 间 节 点 ， 以 确定 两 台 主机 之 间 的 通信 路 径 。 同 时 ， 网 络 层 对 上 层 
协议 隐藏 了 网 络 拓扑 连接 的 细节 ， 使 得 在 传输 层 和 网 络 应 用 程序 看 来 ， 
通信 的 双方 是 直接 相连 的 。 


网 络 层 最 核心 的 协议 是 IP 协 议 〈(Internet Protocol， 因 特 网 协议 ) 。 
了 PP 协 议 根 据 数据 包 的 目的 耳 地 址 来 决定 如 何 投递 它 。 如 果 数 据 包 不 能 





接 发 送 给 目标 主机 ， 那 么 下 协议 就 为 它 寻 找 一 个 合适 的 下 一 路 (next 
hop) 路 由 器 ， 并 将 数据 包 交 付 给 该 路 由 器 来 转发 。 多 次 重复 这 

程 ， 数 据 包 最 终 到 达 目 标 主 机 ， 或 者 由 于 发 送 失 败 而 被 丢弃 。 可 见 ，IP 
协议 使 用 逐 跳 (hop by hop) 的 方式 确定 通信 路 径 。 我 们 将 在 第 2 章 详 细 
讨论 耳 协 议 。 








网 络 层 另外 一 个 重要 的 协议 是 ICMP 协 议 〈Internet Control Message 
Protocol， 因 特 网 控制 报 文 协议 ) 。 它 是 IP 协 议 的 重要 补充 ， 主 要 用 于 
检测 网 络 连接 。ICMP 协 议 使 用 的 报 文 格式 如 图 1-2 所 示 。 


0 1 16 3 


报 文 内 容 ， 取 决 于 报 文 的 类 型 





图 1-2 ICMP 报 文 格式 


图 1-2 中 ，8 位 类 型 字段 用 于 区 分 报 文 类 型 。 它 将 ICMP 报 文 分 为 两 
大 类 : 一 类 是 差错 报 文 ， 这 类 报 文 主要 用 来 回应 网 络 错误 ， 比 如 目标 不 
可 到 达 〔 类 型 值 为 3〉 和 重 定向 (类 型 值 为 5〉; 另 一 类 是 查询 报 文 ， 这 
类 报 文 用 来 查询 网 络 信息 ， 比 如 ping 程 序 就 是 使 用 ICMP 报 文 查看 目标 

是 否 可 到 达 〔( 类 型 值 为 8) 的 。 有 的 ICMP 报 文 还 使 用 8 位 代码 字段 来 进 
一 步 细 分 不 同 的 条 件 。 比 如 重 定向 报 文 使 用 代码 值 0 表 示 对 网 络 重 定 
向 ， 代 码 值 1 表示 对 主机 重 定向 。ICMP 报 文 使 用 16 位 校 验 和 字段 对 整个 
报 文 〈 包 括 头 部 和 内 容 部 分 ) 进行 循环 了 见 余 校 验 〈Cyclic Redundancy 











Check，CRC) ， 以 检验 报 文 在 传输 过 程 中 是 侣 损坏 。 不 同 的 ICMP 报 文 
类 型 具有 不 同 的 正文 内 容 。 我 们 将 在 第 2 章 详 细 讨 论 主 机 重 定 向 报 文 ， 
其 他 ICMP 报 文 格式 请 参考 ICMP 协 议 的 标准 文档 RFC 792。 








需要 指出 的 是 ，ICMP 协 议 并 非 严格 意义 上 的 网 络 层 协议 ， 因 为 它 
使 用 处 于 同一 层 的 了 Pp 协议 提供 的 服务 一般 来 说 ， 上 层 协议 使 用 下 层 协 
议 提供 的 服务 ) 。 


1.1.3 ”传输 层 
传输 层 为 两 台 主 机 上 的 应 用 程序 提供 端 到 端 (endto end) 的 通信 。 


与 网 络 层 使 用 的 逐 跳 通信 方式 不 同 ， 传 输 层 只 关心 通信 的 起 始 端 和 目的 
端 ， 而 不 在 乎 数据 包 的 中 转 过 程 。 图 1-3 展 示 了 传输 层 和 网 络 层 的 这 种 
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应 用 程序 
服务 器 


传输 层 “|---------------------- 一- 传输 层 








以 太 网 


图 1-3 传输 层 和 网 络 层 的 区 别 


图 1-3 中 ， 垂 直 的 实 线 箭头 表示 TCP/P 协 议 族 各 层 之 间 的 实体 通信 
(数据 包 确 实 是 沿 着 这 些 线路 传递 的 ) ， 而 水 平 的 虚线 箭头 表示 逻辑 通 
信 线 路 。 该 图 中 还 附带 描述 了 不 同 物理 网 络 的 连接 方法 。 可 见 ， 数 据 链 
路 层 〈 驱 动 程序 ) 封装 了 物理 网 络 的 电气 细节 ; 网 络 层 封装 了 网 络 连 接 
的 细节 ;传输 层 则 为 应 用 程序 封装 了 一 条 端 到 端的 逻辑 通信 链 路 ， 它 负 
责 数据 的 收发 、 链 路 的 超时 重 连 等 








传输 层 协议 主要 有 三 个 : TCP 协 议 、UDP 协 议和 SCTP 协 议 。 


TCP 协 议 (Transmission Control Protocol， 传 输 控 制 协议 ) 为 应 用 层 
提供 可 靠 的、 面向 连接 的 和 基于 流 〈stream) 的 服务 。TCP 协 议 使 用 超 


时 重 传 、 数 据 确认 等 方式 来 确保 数据 包 被 正确 地 发 送 至 目的 端 ， 因 此 

TCP 服 务 是 可 靠 的 。 使 用 TCP 协 议 通 信 的 双方 必须 先 建立 TCP 连 接 ， 并 
在 内 核 中 为 该 连接 维持 一 些 必 要 的 数据 结构 ， 比 如 连接 的 状态 、 读 写 组 
冲 区 ， 以 及 诸多 定时 器 等 。 当 通信 结束 时 ， 双 方 必须 关闭 连接 以 释放 这 
些 内 核 数 据 。TCP 服 务 是 基于 流 的 。 基 于 流 的 数据 没有 边界 〈 长 度 ) 限 
制 ， 它 源源 不 断 地 从 通信 的 一 端 流入 另 一 端 。 发 送 端 可 以 逐个 字 节 地 向 
数据 流 中 写 入 数据 ， 接 收 端 也 可 以 逐个 字 节 地 将 它们 读 出 。 














UDP 协 议 (User Datagram Protocol， 用 户 数据 报 协 议 ) 则 与 TCP 协 
议 完 全 相反 ， 它 为 应 用 层 提供 不 可 靠 、 无 连接 和 基于 数据 报 的 服 
务 。“ 不 可 靠 ” 意 味 着 UDP 协 议 无 法 保证 数据 从 发 送 端 正确 地 传送 到 目的 
端 。 如 果 数 据 在 中 途 丢 失 ， 或 者 目的 端 通过 数据 校 验 发 现 数据 错误 而 将 
其 丢弃 ， 则 UDP 协议 只 是 简单 地 通知 应 用 程序 发 送 失 败 。 因 此 ， 使 用 
UDP 协议 的 应 用 程序 通常 要 自己 处 理 数据 确认 、 超 时 重 传 等 逻辑 。UDP 
协议 是 无 连接 的 ， 即 通信 双方 不 保持 一 个 长 久 的 联系 ， 因 此 应 用 程序 每 
次 发 送 数 据 都 要 明确 指定 接收 端的 地 址 (IP 地 址 等 信息 ) 。 基 于 数据 报 
的 服务 ， 是 相对 基于 流 的 服务 而 言 的 。 每 个 UDP 数 据 报 都 有 一 个 长 度 ， 
接收 端 必须 以 该 长 度 为 最 小 单位 将 其 所 有 内 容 一 次 性 读 出 ， 否 则 数据 将 
被 截断 。 














SCTP 协 议 (Stream Control Transmission Protocol， 流 控制 传输 协 
议 ) 是 一 种 相对 较 新 的 传输 层 协议 ， 它 是 为 了 在 因特网 上 传输 电话 信和 号 





而 设计 的 。 本 书 不 讨论 SCTP 协 议 ， 感 兴趣 的 读者 可 参考 其 标准 文档 
RFC 2960。 


我 们 将 在 第 3 章 详 细 讨论 TCP 协 议 ， 并 附带 介绍 UDP 协议 。 


144 .说 用 屋 





应 用 层 负责 处 理应 用 程序 的 逻辑 。 数 据 链 路 层 、 网 络 层 和 传输 层 负 
责 处 理 网 络 通信 细节 ， 这 部 分 必须 既 稳定 又 高 效 ， 因 此 它们 都 在 内 核 空 
间 中 实现 ， 如 图 1-1 所 示 。 而 应 用 层 则 在 用 户 空间 实现 ， 因 为 它 负 责 处 
理 众多 逻辑 ， 比 如 文件 传输 、 名 称 查 询 和 网 络 管理 等 。 如 果 应 用 层 也 在 
内 核 中 实现 ， 则 会 使 内 核 变 得 非常 庞大 。 当 然 ， 也 有 少数 服务 器 程序 是 
在 内 核 中 实现 的 ， 这 样 代 码 就 无 须 在 用 户 空间 和 内 核 空间 来 回 切换 《〈 主 
要 是 数据 的 复制 ) ， 极 大 地 提高 了 工作 效率 。 不 过 这 种 代码 实现 起 来 较 
复杂 ， 不 够 灵活 ， 且 不 便于 移植 。 本 书 只 讨论 用 户 空间 的 网 络 编程 。 














应 用 层 协议 很 多 ， 图 1-1 仅 列举 了 其 中 的 几 个 : 





ping 古 应 用 程序 ， 而 不 是 协议 ， 前 面 说 过 它 利用 ICMP 报 文 检测 网 
络 连接 ， 征 调试 网 络 环境 的 必 备 工具 。 

telnet 协 议 是 一 种 远程 登录 协议 ， 它 使 我 们 能 在 本 地 完成 远程 任 
务 ， 本 书后 续 章节 将 会 多 次 使 用 telnet 和 客户 端 登录 到 其 他 服务 上 。 





OSPF (Open Shortest Path First， 开 放 最 短路 径 优先 ) 协议 是 一 种 动 
态 路 由 更 新 协议 ， 用 于 路 由 器 之 间 的 通信 ， 以 告知 对 方 各 自 的 路 由 信 


自 
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DNS (Domain Name Service， 域 名 服务 ) 协议 提供 机 器 域名 到 IP 地 
址 的 转换 ， 我 们 将 在 后 面 简 要 介绍 DNS 协议 。 


应 用 层 协 议 〈 或 程序 ) 可 能 路 过 传输 层 直接 使 用 网 络 层 提供 的 服 
务 ， 比 如 ping 程 序 和 OSPF 协 议 。 应 用 层 协议 《或 程序 ) 通常 既 可 以 使 用 
TCP 服 务 ， 又 可 以 使 用 UDP 服务 ， 比 如 DNS 协议 。 我 们 可 以 通 
过 /etc/services 文 件 查 看 所 有 知名 的 应 用 层 协 议 ， 以 及 它们 都 能 使 用 哪些 
传输 层 服 务 。 


12 封装 





上 层 协 议 是 如 何 使 用 下 层 协议 提供 的 服务 的 呢 ? 其 实 这 是 通过 封装 
Cencapsulation ) 实现 的 。 应 用 程序 数据 在 发 送 到 物理 网 络 上 之 前 ， 将 
治 着 协议 栈 从 上 往 下 依次 传递 。 每 层 协议 都 将 在 上 层 数 据 的 基础 上 加 上 
自己 的 头 部 信息 《有 时 还 包括 尾部 信息 ) ， 以 实现 该 层 的 功能 ， 这 个 过 
程 就 称 为 封闭， 如 图 1-4 所 示 。 


应 用 程序 数据 
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图 1-4 封装 


经 过 TCP 封 装 后 的 数据 称 为 TCP 报 文 段 CTCP message segment) ， 
或 者 简称 TCP 段 。 前 文 提 到 ，TCP 协 议 为 通信 双方 维持 一 个 连接 ， 并 且 





在 内 核 中 存储 相关 数据 。 这 部 分 数据 中 的 TCP 头 部 信息 和 TCP 内 核 绥 冲 
区 (发送 缓冲 区 或 接收 缓冲 区 〉 数据 一 起 构成 了 TCP 报 文 段 ， 如 图 1-5 中 
的 虚线 框 所 示 。 


应 用 程序 发 送 
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图 1-5 TCP 报 文 段 封装 过 程 


当 发 送 端 应 用 程序 使 用 send《〈 或 者 write) 图 数 问 一 个 TCP 连 接 写 入 
数据 时 ， 内 核 中 的 TCP 模 块 首先 把 这 些 数 据 复制 到 与 该 连接 对 应 的 TCP 
内 核 及 送 缓冲 区 中 ， 然 后 TCP 模 块 调用 IP 模 块 提 供 的 服务 ， 传 递 的 参数 
包括 TCP 头 部 信息 和 TCP 发 送 缓冲 区 中 的 数据 ， 即 TCP 报 文 段 。 关 于 
TCP 报 文 段 头 部 的 细节 ， 我 们 将 在 第 3 章 讨论 。 





经 过 UDP 封装 后 的 数据 称 为 UDP 数据 报 (UDP datagram) 。UDP 对 
应 用 程序 数据 的 封装 与 TCP 类 似 。 不 同 的 是 ，UDP 无 须 为 应 用 层 数 据 保 
存 副 本 ， 因 为 它 提供 的 服务 是 不 可 靠 的 。 当 一 个 UDP 数据 报 被 成 功 发 送 
之 后 ，UDP 内 核 缓 冲 区 中 的 该 数据 报 就 被 丢弃 了 。 如 果 应 用 程序 检测 到 


该 数据 报 未 能 被 接收 端正 确 接 收 ， 并 打算 重 发 这 个 数据 报 ， 则 应 用 程序 
需要 重新 从 用 户 空 间 将 该 数据 报 找 贝 到 UDP 内 核发 送 缓冲 区 中 。 


经 过 IP 封 装 后 的 数据 称 为 IP 数 据 报 (IP datagram) 。 卫 数据 报 也 包 
括 头 部 信息 和 数据 部 分 ， 其 中 数据 部 分 就 是 一 个 TCP 报 文 段 、UDP 数 据 
报 或 者 ICMP 报 文 。 我 们 将 在 第 2 章 详 细 讨 论 了 数据 报 的 头 部 信息 。 


经 过 数据 链 路 层 封装 的 数据 称 为 帧 〈frame) 。 传 输 媒 介 不 同 ， 帧 
的 类 型 也 不 同 。 比 如 ， 以 太 网 上 传输 的 是 以 太 网 帧 〈ethernet frame) ， 
而 令 牌 环 网 络 上 传输 的 则 是 令 牌 环 帧 (token ring frame) 。 以 以 太 网 帧 
为 例 ， 其 封 污 格式 如 图 1-6 所 示 。 


目的 物理 地 址 源 物理 地 址 








6 字 节 6 字 节 2 字 节 46 一 1500 字 节 4 字 节 


图 1-6 以 大 网 帧 封装 


以 太 网 帧 使 用 6 字 节 的 目的 物理 地 址 和 6 字 节 的 源 物理 地 址 来 表示 通 
信 的 双方 。 关 于 类 型 (type) 字段 ， 我 们 将 在 后 面 讨 论 。4 字 节 CRC 字 
段 对 帧 的 其 他 部 分 提供 循环 见 余 校 验 。 


帧 的 最 大 传输 单元 (Max Transmit Unit，MTU ) ， 即 帧 最 多 能 携带 
多 少 上 层 协 议 数据 〈 比 如 IP 数 据 报 ) ， 通 常 受 到 网 络 类 型 的 限制 。 图 1- 
6 所 示 的 以 太 网 帧 的 MTU 是 1500 字 节 。 正 因为 如 此 ， 过 长 的 IP 数 据 报 可 


能 需要 被 分 片 〈fragment) 传输 。 


帧 才 是 最 终 在 物理 网 络 上 传送 的 字 市 序列。 至 此 ， 封 效 过 程 完 成 。 


1.3 分 用 


当 帧 到 达 目 的 主机 时 ， 将 沿 着 协议 栈 自 底 向 上 依次 传递 。 各 层 协 议 
依次 处 理 帧 中 本 层 负责 的 头 部 数据 ， 以 获取 所 需 的 信息 ， 并 了 最 终 将 处 理 
后 的 帧 交 给 目标 应 用 程序 。 这 个 过 程 称 为 分 用 〈demultiplexing) 。 分 用 
是 依 徘 尖 部 信息 中 的 类 型 字段 实现 的 。 标 准 文档 RFC 1700 定 义 了 所 有 标 
识 上 层 协议 的 类 型 字段 以 及 每 个 上 层 协 议 对 应 的 数值 。 图 1-7 显 示 了 以 
太 网 帧 的 分 用 过 程 。 














根据 TCP/UDP 头 部 的 
端口 号 复 用 


y 
人 


根据 IP 头 部 的 
protocol 值 复 用 


y 
外 


根据 以 太 网 帧 头 部 的 
帧 类 型 复 用 


y 


应 用 程序 应 用 程序 应 用 程序 应 用 程序 












以 太 网 驱动 程序 


进入 的 帧 


图 1-7 以 太 网 帧 的 分 用 过 程 


因为 下 协议 、ARP 协 议和 RARP 协 议 都 使 用 帧 传输 数据 ， 所 以 帧 的 
头 部 需要 提供 茶 个 字段 〈 有 共 体 情况 取决 于 帧 的 类 型 ) 来 区 分 它们 。 以 以 





太 网 帧 为 例 ， 它 使 用 2 字 节 的 类 型 字段 来 标识 上 层 协议 〈 见 图 1-6) 。 如 
果 主 机 接收 到 的 以 太 网 帧 类 型 字段 的 值 为 0x800， 则 帧 的 数据 部 分 为 IP 
数据 报 〔 见 图 1-4) ， 以 太 网 驱动 程序 就 将 帧 交付 给 IP 模 块 ， 硝 类 型 字 
段 的 值 为 0x806， 则 帧 的 数据 部 分 为 ARP 请 求 或 应 答 报 文 ， 以 太 网 驱动 
程序 就 将 帧 交付 给 ARP 模 块 ， 大 类 型 字段 的 值 为 0x835， 则 帧 的 数据 部 
分 为 RARP 请 求 或 应 答 报 文 ， 以 太 网 驱动 程序 就 将 帧 交付 给 RARP 模 
块 。 











同样 ， 因 为 ICMP 协 议 、TCP 协 议和 UDP 协议 都 使 用 卫 协 议 ， 所 以 了 
数据 报 的 头 部 采用 16 位 的 协议 〈protocol) 字段 来 区 分 它们 。 


TCP 报 文 段 和 UDP 数据 报 则 通过 其 头 部 中 的 16 位 的 端口 号 〈port 
number) 字段 来 区 分 上 层 应 用 程序 。 比 如 DNS 协议 对 应 的 端口 号 是 53， 
HTTP 协 议 (Hyper-Text Transfer Protocol， 超 文本 传送 协议 ) 对 应 的 端 
口号 是 80。 上 所 有 知名 应 用 层 协议 使 用 的 端口 号 都 可 在 /etc/services 文 件 中 
找到 。 








帧 通过 上 述 分 用 步骤 后 ， 最 终 将 封装 前 的 原始 数据 送 至 目标 服务 
(图 1-7 中 的 ARP 服 务 、RARP 服 务 、ICMP 服 务 或 者 应 用 程序 ) 。 这 
样 ， 在 顶层 目标 服务 看 来 ， 封 装 和 分 用 似乎 没有 发 生 过 。 


1.4 测试 网 络 


为 了 深入 理解 网 络 通 信和 网 络 编程 ， 我 们 准备 了 图 1-8 所 示 的 测试 
网 络 ， 其 中 包括 两 台 主 机 A 和 B， 以 及 一 个 连接 到 因特网 的 路 由 器 。 后 
文 如 没有 特别 声明 ， 所 有 测试 硬件 指 的 都 是 该 网 络 。 我 们 将 使 用 机 器 名 
来 标识 测试 机 器 。 






机 器 名 : ernest-laptop 机 器 名 : Kongming20 
最 IP 地 址 : 192.168.1.108 IP 地 址 : 192.168.1.109 B 
MAC 地 址 : 00:16:d3:5c:b9:e3 MAC 地 址 : 08:00:27:53:10:67 
系统 : Ubuntu 9.10 系统 : Fedora 16 
网 卡 接口 : eth0 网 卡 接 口 : p2p1 


以 太 网 
IP 地 址 : 192.168.1.1 
MAC 地 址 : 14:e6:e4:93:5b:78 


去 因特网 


图 1-8 测试 网 络 


该 测试 网 络 主要 用 于 分 析 ARP 协 议 、 卫 协议 、ICMP 协 议 、TCP 协 议 
和 DNS 协议 。 我 们 通过 抓 取 该 网 络 上 的 以 太 网 帧 ， 查 看 其 中 的 以 太 网 帧 
头 部 、IP 数 据 报头 部 、TCP 报 文 段 头 部 信息 ， 以 获取 网 络 通信 的 细节 。 
这 样 ， 以 理论 结合 实践 ， 我 们 就 清楚 TCP/IP 通 信和 具体 是 如 何 进行 的 了 。 
作者 编写 的 多 个 客户 端 、 服 务 器 程序 都 是 使 用 该 网 络 来 调试 和 测试 的 。 


对 于 路 由 器 ， 我 们 仅 列 出 了 其 LAN 网 络 IP 地 址 (192.168.1.1) ， 而 
忽略 了 ISP (Internet Service Provider， 因 特 网 服务 提供 商 ) 给 它 分 配 的 
WAN 网 络 IP 地 址 ， 因 为 全 书 的 讨论 都 不 涉及 它 。 


1.5 ” ARP 协议 工作 原理 


ARP 协 议 能 实现 任意 网 络 层 地 址 到 任意 物理 地 址 的 转换 ， 不 过 本 书 
仅 讨 论 从 了 地 址 到 以 太 网 地 址 (MAC 地 址 ) 的 转换 。 其 工作 原理 是 : 主 
机 向 自己 所 在 的 网 络 广 播 一 个 ARP 请 求 ， 该 请 求 包含 目标 机 器 的 网 络 地 
址 。 此 网 络 上 的 其 他 机 器 都 将 收 到 这 个 请 求 ， 但 只 有 被 请 求 的 目标 机 器 
会 回应 一 个 ARP 应 答 ， 其 中 包含 目 己 的 物理 地 址 。 


1.5.1 以 太 网 ARP 请 求 /应 答 报 文 详解 


以 太 网 ARP 请 求 /应 答 报 文 的 格式 如 图 1-9 所 示 。 





2 季节 2 字 节 ”1 字 节 1 字 节 2 他 节 6 字 节 4 字 节 6 字 节 4 字 节 


图 1-9 以 太 网 和 RP 请 求 /应 答 报 文 
图 1-9 所 示 以 太 网 ARP 请 求 /应 答 报 文 各 字段 具体 介绍 如 下 。 
口 人 硬件 类 型 字段 定义 物理 地 址 的 类 型 ， 它 的 值 为 1 表示 MAC 地 址 。 


口 协 议 类 型 字段 表示 要 映射 的 协议 地 址 类 型 ， 它 的 值 为 0x800， 表 
示 IP 地 址 。 


口 硬 件 地 址 长 度 字 段 和 协议 地 址 长 度 字段 ， 顾 名 思 义 ， 其 单位 是 字 
节 。 对 MAC 地 址 来 说 ， 其 长 度 为 6; 对 IP (v4) 地 址 来 说 ， 其 长 度 为 4。 


口 操作 字段 指出 4 种 操作 类 型 ARP 请 求 〈 值 为 1) 、ARP 应 答 〈 值 
为 2) 、RARP 请 求 〈 值 为 3) 和 RARP 应 答 〈 值 为 4) 。 





口 最 后 4 个 字段 指定 通信 双方 的 以 太 网 地 址 和 IP 地 址 。 友 送 剖 填充 
除 目 的 端 以 太 网 地 址 外 的 其 他 3 个 字段 ， 以 构建 ARP 请 求 并 发 送 之 。 接 
收 端 发 现 该 请 求 的 目的 并 IP 地 址 是 自己 ， 就 把 自己 的 以 太 网 地 址 填 进 
去 ， 然 后 交换 两 个 目的 端 地 址 和 两 个 发 送 端 地 址 ， 以 构建 ARP 应 答 并 返 
回 之 “当然 ， 如 前 所 述 ， 操 作 字 段 需要 设置 为 2) 。 





由 图 1-9 可 知 ，ARP 请 求 /应 答 报 文 的 长 度 为 28 字 节 。 如 果 再 加 上 以 
太 网 帧 头 部 和 尾部 的 18 字 节 《〈 见 图 1-6) ， 则 一 个 携带 ARP 请 求 /应 答 报 
文 的 以 太 网 帧 长 度 为 46 字 节 。 不 过 有 的 实现 要 求 以 太 网 帧 数据 部 分 长 度 
至 少 为 46 字 节 〈 见 图 1-4) ， 此 时 ARP 请 求 /应 答 报 文 将 增加 一 些 填 充 字 
节 ， 以 满足 这 个 要 求 。 在 这 种 情况 下 ， 一 个 携带 ARP 请 求 /应 答 报 文 的 
以 太 网 帧 长 度 为 64 字 节 。 





1.5.2 ”ARP 高 速 缓存 的 查看 和 修改 


通常 ，ARP 维 护 一 个 高 速 缓存 ， 其 中 包含 经 名 访问 《比如 网 关 地 
址 ) 或 最 近 访 问 的 机 器 的 下 地 址 到 物理 地 址 的 映射 。 这 样 就 避免 了 重复 


的 ARP 请 求 ， 提 高 了 发 送 数据 包 的 速度 。 


Linux 下 可 以 使 用 arp 命 令 来 查看 和 修改 ARP 高 速 缓存 。 比 如 ， 
ernest-laptop 在 某 一 时 刻 《〈 注 意 ，ARP 高 速 缓存 是 动态 变化 的 ) 的 ARP 组 
存 内 容 如 下 使 用 arp-a 命 令 ) : 








Kongming20 (192.168.1.109)at 08:00:27:53:10:67[ether]jon eth0 
?(192.168.1.1)at 14:e6:e4:93:5b:78[etherjon eth0 








其 中 ， 第 一 项 描述 的 是 另 一 台 测 试 机 器 Kongming20《〈 注 意 ， 其 耻 地 
址 、MAC 地 址 都 与 图 1-8 描 述 的 一 致 ; ， 第 二 项 描述 的 是 路 由 器 。 下 面 
两 条 命令 则 分 别 删除 和 添加 一 个 ARP 绥 存 项 : 








$sudo arp-d 192.168.1.109# 删 除 Kongming20 对 应 的 ARP 绥 存 项 
$sudo arp-s 192.168.1.109 08:00:27:53:10:67# 添 加 Kongming20 对 应 的 ARP 
缓存 项 




















1.5.3 ”使 用 tcpdump 观 察 ARP 通 信 过 程 


为 了 清楚 地 了 解 ARP 的 运作 过 程 ， 我 们 从 ernest-laptop 上 执行 telnet 
命令 登录 Kongming20 的 echo 服 务 〈 已 经 开启 ) ， 并 用 tcpdump 〈 详 见 第 
17 章 ) 抓 取 这 个 过 程 中 两 台 测 试 机 器 之 间 交 换 的 以 太 网 帧 。 具 体 的 操作 
过 程 如 下 : 


已 








$sudo arp-qd 192.168.1.109# 清 除 ARP 组 在 中 Kongming20 对 应 的 项 
$sudo tcpdump-i eth0-ent'(dqst 192.168.1.109 andq src 
192.168.1.108)or 














(dst 192.168.1.108 and src 192.168.1.109) '# 如 无 特殊 声明 ， 抓 包 都 在 机 器 
ernest-laptop 上 执行 
Stelnet 192.168.1.109 echo# 开 启 另 一 个 终端 执行 telnet 命 令 
RYLNG 二 9 用 二 汪 6 
Connected to 192.168.1.109 . 
Escape character is'^]'. 
^] 〈 回 车 ) # 输 入 Ctr1l+] 并 回 车 
telnet 记 quit( 回 车 ) 
Connection closed. 















































在 执行 telnet 命 令 之 前 ， 应 先 清除 ARP 绥 存 中 与 Kongming20 对 应 的 
项 ， 否 则 ARP 通 信 不 被 执行 ， 我 们 也 就 无 法 抓 取 到 期 望 的 以 太 网 帧 。 当 
执行 telnet 命 令 并 在 两 台 通信 主 机 之 间 建 立 TCP 连 接 后 〈telnet 输 
出 “Connected to 192.168.1.109”) ， 输 入 Ctrl+] 以 调 出 telnet 程 序 的 命令 提 
示 符 ， 然 后 在 telnet 命 令 提 示 符 后 输入 quit， 退 出 telnet 客 户 端 程序 〈 因 为 
ARP 通 信 在 TCP 连 接 建 立 之 前 就 已 经 完成 ， 故 我 们 不 关心 后 续 内 容 ) 。 
tcpdump 抓 取 到 的 众多 数据 包 中 ， 只 有 最 靠 前 的 两 个 和 ARP 通 信 有 关 
系 ， 现 在 将 它们 列 出 〈 数 据 包 前 面 的 编号 是 笔者 加 入 的 ， 后 同 ) : 











1.00:16:dq3:5c:b9:e3>ff:ff:fft:fft:fft:ffethertype 
RP (Ox0806),1length 42:Request who-has 192.168.1.109 tell 
92.168,.4.108y Length 28 
2.08:00:27:53:10:67>00:16:dq3:5c:pb9:e3ethertyp 
ARP (0x0806),1length 60:Reply 192.168.1.109 is-at 
08:00:27:53:10:67,1length 46 












































上 迪 





























由 tcpdump 抓 取 的 数据 包 本 质 上 是 以 太 网 帧 ， 我 们 通过 该 命令 的 众 
多 选项 来 控制 帧 的 过 滤 《比如 用 dst 和 src 指 定 通信 的 目的 端 卫 地址 和 源 
端 耻 地 址 ) 和 显示 《比如 用 -e 选 项 开 司 以 太 网 帧 头 部 信息 的 显示 ) 。 


第 一 个 数据 包 中 ，ARP 通 信 的 源 端的 物理 地 址 是 
00:16:d3:5c:b9:e3 〈ernest-laptop) ， 目 的 端的 物理 地 址 是 ff:ff:ff:ff:ff:ff， 
这 是 以 太 网 的 广播 地 址 ， 用 以 表示 整个 LAN。 该 LAN 上 的 所 有 机 器 都 会 
收 到 并 处 理 这 样 的 帧 。 数 值 0x806 是 以 太 网 帧 头 部 的 类 型 字段 的 值 ， 它 
表示 分 用 的 目标 是 ARP 模 块 。 该 以 太 网 帧 的 长 度 为 42 字 节 【〈 实 际 上 是 46 
字 节 ，tcpdump 未 统计 以 太 网 由 尾部 4 字 节 的 CRC 字 段 ) ， 其 中 数据 部 分 
长 度 为 28 字 节 。 Request" 表示 这 是 一 个 ARP 请 求 , “who-has 
192.168.1.109 tell 192.168.1.108” 则 表示 是 ernest-laptop 要 查询 
Kongming20 的 IP 地 址 。 


第 二 个 数据 包 中 ，ARP 通 信 的 源 端的 物理 地 址 是 
08:00:27:53:10:67 (Kongming20) ， 目 的 端的 物理 地 址 是 
00:16:d3:5c:b9:e3 (ernest-laptop) 。 “Reply” 表 示 这 是 一 个 ARP 应 
答 ，“192.168.1.109 is-at 08:00:27:53:10:67” 则 表示 目标 机 器 Kongming20 
报告 其 物理 地 址 。 该 以 太 网 帧 的 长 度 为 60 字 节 (实际 上 是 64 字 节 ) ， 可 
见 它 使 用 了 填充 字 节 来 满足 最 小 帧 长 度 。 


为 了 便于 理解 ， 我 们 将 上 述 讨论 用 图 1-10 来 详细 说 明 。 


telnet 客 户 程 序 echo 服 务 
Kongming20 









ernest-laptop 









和 T------ 一 一 >! 


以 太 网 帧 1 | 








路 由 器 


以 太 网 帧 1 的 内 容 RE 00:16:d3:5c:b9:e3 0x806 ARP 请 求 
以 太 网 帧 2 的 内 容 00:16:d3:5c:b9:e3 08:00:27:53:10:67 Ox806 ARP 应 答 





图 1-10 ARP 通信 过 程 





关于 该 图 ， 需 要 说 明 三 点 : 


第 一 ， 我 们 将 两 次 传输 的 以 太 网 帧 按照 图 1-6 所 描述 的 以 太 网 帧 圭 
装 格 式 绘制 在 图 的 下 半 部 分 。 


第 二 ，ARP 请 求 和 应 答 是 从 以 太 网 驱动 程序 发 出 的 ， 而 并 非 像 图 中 
描述 的 那样 从 ARP 模 块 直接 发 送 到 以 太 网 上 ， 所 以 我 们 将 它们 用 虚线 表 
示 ， 这 主要 是 为 了 体现 携带 ARP 数 据 的 以 太 网 帧 和 其 他 以 太 网 帧 《比如 
携带 人 P 数 据 报 的 以 太 网 帧 〉 的 区 别 。 





第 三 ， 路 由 器 也 将 接收 到 以 太 网 帧 1， 因 为 该 帧 是 一 个 广播 帧 。 不 
过 很 显然 ， 路 由 器 并 没有 回应 其 中 的 ARP 请 求 ， 正 如 前 文 讨论 的 那样 。 


1.6 DNS 工作 原理 


我 们 通常 使 用 机 器 的 域名 来 访问 这 台 机 器 ， 而 不 直接 使 用 其 IP 地 
址 ， 比 如 访问 因特网 上 的 各 种 网 站 。 那 么 如 何 将 机 器 的 域名 转换 成 IP 地 
址 呢 ? 这 就 需要 使 用 域名 查询 服务 。 域 名 查询 服务 有 很 多 种 实现 方式 ， 
比如 NIS (Network Information Service， 网 络 信息 服务 ) 、DNS 和 本 地 


静态 文件 等 。 本 市 主要 讨论 DNS。 








1.6.1 DNS 碍 询 和 应 答 报 文 详 解 


DNS 是 一 套 分 布 式 的 域名 服务 系统 。 每 个 DNS 服务 器 上 都 存放 着 大 
量 的 机 器 名 和 IP 地 址 的 映射 ， 并 且 是 动态 更 新 的 。 众 多 网 络 客户 端 程序 
都 使 用 DNS 协议 来 向 DNS 服务 器 查询 目标 主机 的 耳 地 址 。DNS 碍 询 和 应 
答 报 文 的 格式 如 图 1-11 所 示 。 


15 416 


16 位 问题 个 数 16 位 应 答 资源 记录 个 数 


16 位 授权 资源 记录 数目 16 位 额外 的 资源 记录 数目 


查询 问题 (长 度 可 变 ) 


应 答 〈 资 源 记录 数目 可 变 ， 长 度 可 变 ) 


授权 资源 记录 数目 可 变 ， 长 度 可 变 ) 





额外 信息 资源 记录 数目 可 变 ， 长 度 可 变 ) 





图 1-11 DNS 查询 和 应 答 报 文 


16 位 标识 喇 字 段 用 于 标记 一 对 DNS 查询 和 应 答 ， 以 此 区 分 一 个 
DNS 应 答 是 哪个 DNS 查询 的 回应 。 


16 位 标志 字段 用 于 协商 具体 的 通信 方式 和 反馈 通信 状态 。DNS 报 文 
头 部 的 16 位 标志 字段 的 细节 如 图 1-12 所 示 。 


EE EE 
4 位 3 位 4 位 


1 位 1 位 1 位 1 位 


图 1-12 DNS 报 文 头 部 的 标志 字段 


图 1-12 中 各 标志 的 含义 分 别 是 : 





DQR， 仁 询 / 应 管 标志 。0 表 示 这 是 一 个 查询 报 文 ，1 表 示 这 是 一 个 
应 答 报 文 。 








口 opcode， 定 义 碍 询 和 应 答 的 类 型 。0 表 示 标 准 查 询 ，1 表 示 反 回答 
询 《 由 耳 地 址 获得 主机 域名 ) ，2 表 示 请 求 服务 器 状态 。 


DAA， 授 权 应 答 标 过， 仅 由 应 答 报 文 使 用 。1 表 示 域 名 服务 口 是 授 
权 服 务 器 。 


DTC， 截 断 标 志 ， 仅 当 DNS 报 文 使 用 UDP 服务 时 使 用 。 因 为 UDP 
数据 报 有 长 度 限 制 ， 所 以 过 长 的 DNS 报 文 将 被 截断 。1 表 示 DNS 报 文 超 
过 512 字 节 ， 并 被 截断 。 





DRD， 递 归 碍 询 标志 。1 表 示 执 行 递归 查询， 即 如 有 果 目 标 DNS 服 务 
强 无 法 解析 东 个 主机 名 ， 则 它 将 回 其 他 DNS 服 务 占 继续 查询， 如 此 书 
归 ， 直 到 获得 结果 并 把 该 结果 返回 给 客户 端 。0 表 示 执 行 达 代 查询 ， 即 
如 果 目 标 DNS 服 务 需 无 法 解析 茶 个 主机 名 ， 则 它 将 目 己 知道 的 其 他 DNS 
服务 喜 的 耳 地 址 返回 给 客户 顺 ， 以 供 客 户 端 参考 。 





DRA， 人 允许 递 归 标 志 。 仅 由 应 答 报 文 使 用 ，1 表 示 DNS 服 务 堪 文 持 
递归 查询 。 


Dzero， 这 3 位 未 用 ， 必 须 都 设置 为 0。 


Drcode，4 位 返回 码 ， 表 示 应 答 的 状态 。 常 用 值 有 0 无 错误 ) 和 
3 域名 不 存在 )。 





接 下 来 的 4 个 字段 则 分 别 指出 DNS 报 文 的 最 后 4 个 字段 的 资源 记录 数 





目 。 对 碍 询 报 文 而 言 ， 它 一 般 包含 1 个 查询 问题 ， 而 应 答 资源 记录 数 、 
授权 资源 记录 数 和 额外 资源 记录 数 则 为 0。 应 答 报 文 的 应 答 资 源 记录 数 
则 至 少 为 1， 而 授权 资源 记录 数 和 额外 资源 记录 数 可 为 0 或 非 0。 

查询 问题 的 格式 如 图 1-13 所 示 。 


0 15 16 31 
查询 名 (可 变 长 ) 





图 1-13 DNS 查询 问题 的 格式 


图 1-13 中 ， 查 询 名 以 一 定 的 格式 封装 了 要 查询 的 主机 域名 。16 位 查 
询 类 型 表示 如 何 执行 得 询 操作 ， 常 见 的 类 型 有 如 下 几 种 : 











口 类 型 A， 值 是 1， 表 示 获 取 目 标 主 机 的 IP 地 址 。 











口 类 型 CNAME， 值 是 5， 表 示 获 得 目标 主机 的 别名 。 


口 类 型 PTR， 值 是 12， 表 示 反 向 查询 。 


16 位 查询 类 通常 为 1， 表 示 获 取 因 特 网 地 址 (IP 地址 〉。 


应 答 字 段 、 授 权 字 段 和 额外 信息 字段 都 使 用 资源 记录 〈Resource 
Record，RR) 格式 。 资 源 记 录 格 式 如 图 1-14 所 示 。 


0 lS 16 31 


32 位 生存 时 间 


16 位 资源 数据 长 度 


资源 数据 (长度 可 变 ) 





图 1-14 资源 记录 格式 


图 1-14 中 ，32 位 域名 是 该 记录 中 与 资源 对 应 的 名 字 ， 其 格式 和 得 询 
问题 中 的 查询 名 字段 相同 。16 位 类 型 和 16 位 类 字段 的 含义 也 与 DNS 但 询 
问题 的 对 应 字段 相同 。 











32 位 生存 时 间 表 示 该 得 询 记录 结果 可 被 本 地 客户 端 程序 缓存 多 长 时 
间 ， 单 位 是 秘 。 


16 位 资源 数据 长 度 字 段 和 资源 数据 字段 的 内 容 取决 于 类 型 字段 。 对 
类 型 A 而 言 ， 资 源 数据 是 32 位 的 IPv4 地 址 ， 而 资源 数据 长 度 则 为 4〈 以 字 
节 为 单位 ) 。 


至 此 ， 我 们 简要 地 介绍 了 DNS 协议 。 我 们 将 在 后 面 给 出 一 个 DNS 通 
信 的 有 具体 例子 。DNS 协 议 的 更 多 细节 请 参考 其 RFC 文 档 (DNS 协议 存在 
诸多 RFC 文 档 ， 每 个 RFC 文 档 介 绍 其 一 个 侧面 ， 比 如 RFC 1035 介 绍 的 是 


域名 的 实现 和 规范 ，RFC 1886 则 描述 DNS 协议 对 IPv6 的 扩展 文 持 ) 。 


1.6.2 ”Linux 下 访问 DNS 服务 


我 们 要 访问 DNS 服务 ， 束 必须 先知 道 DNS 服务 器 的 了 地址 。Linux 
使 用 /etc/resolv.conf 文 件 来 存放 DNS 服 务 器 的 IP 地 址 。 机 器 ernest-laptop 
上 ， 该 文件 的 内 容 如 下 : 





#Generated by Network Manager 
nameserver 219.239.26.42 
nameserver 124.207.160.106 





其 中 的 两 个 耻 地 址 分 别 是 首选 DNS 服务 器 地 址 和 备 选 DNS 服务 器 地 
址 。 文 件 中 的 注释 语句 “Generated by Network Manager” 告 诉 我 们 ， 这 两 
个 DNS 服务 器 地 址 是 由 网 络 管理 程序 写 入 的 。 


Linux 下 一 个 各 用 的 访问 DNS 服务 器 的 客户 端 程序 是 host， 比 如 下 面 
的 命令 是 向 首选 DNS 服务 器 219.239.26.42 查 询 机 器 www.baidu.com 的 IP 
地 址 : 





$host-t A www.baidu.com 

www.baidu.com is an alias for www.a.shifen.com. 
www.a.shifen.com has address 119.75.217.56 
www.a.shifen.com has address 119.75.218.77 





























host 命 令 的 输出 告诉 我 们 ， 机 器 名 www.baidu.com 是 
www.a.shifen.com. 的 别名 ， 并 且 该 机 器 名 对 应 两 个 IP 地 址 。host 命 令 使 
用 DNS 协议 和 DNS 服务 器 通信 ， 其 -t 选 项 告诉 DNS 协议 使 用 哪 种 查询 类 


型 。 我 们 这 里 使 用 的 是 A 类 型 ， 即 通过 机 喜 的 域名 获得 其 下地 址 《但 实 
际 上 返回 的 资源 记录 中 还 包含 机 器 的 别名 ) 。 关 于 host 命 令 的 详细 使 用 
方法 ， 请 参考 其 man 手 册 。 


1.6.3 ”使 用 tcpdump 观 察 DNS 通 信 过 程 


为 了 看 清楚 DNS 通信 的 过 程 ， 下 面 我 们 将 从 ernest-laptop 上 运行 host 
命令 以 查询 主机 www.baidu.com 对 应 的 IP 地 址 ， 并 使 用 tcpdump 抓 取 这 一 
过 程 中 LAN 上 传输 的 以 太 网 帧 。 县 体 的 操作 过 程 如 下 : 





$sudo tcpdump-i eth0-nt-s 500 port domain 
$host-t A www.baidu.com 








这 一 次 执行 tcpdump 抓 包 时 ， 我 们 使 用 “port domain” 来 过 滤 数 据 
包 ， 表 示 只 抓 取 使 用 domain 〈 域 名 ) 服务 的 数据 包 ， 即 DNS 得 询 和 应 答 
报 文 。tcpdump 的 输出 如 下 : 





1.IP 192.168.1.108.34319 二 219.239.26.42.53:57428+A?www.baidu.com. 
(31) 

2.IP 219.239.26.42.53>>192.168.1.108.34319:57428 3/4/4 CNAME 
www.a.shifen.com.,A 119.75.218.77,A 119.75.217.56(226) 
































这 两 个 数据 包 开 始 的 “IP” 指 出 ， 它 们 后 面 的 内 容 描述 的 是 IP 数 据 
报 。tcpdump 以 "IP 地址 .端口 号 ”的 形式 来 描述 通信 的 某 一 端 ， 以 “二 ” 表 
示 数 据 传输 的 方向 , “>” 前 面 是 源 端 ， 后 面 是 目的 端 。 可 见 ， 第 一 个 数 


据 包 是 测试 机 器 ernest-laptop (IP 地 址 是 192.168.1.108) 向 其 首选 DNS 服 
务 器 (IP 地 址 是 219.239.26.42) 发 送 的 DNS 查 询 报 文 (目标 端 口 53 是 
DNS 服务 使 用 的 端口 ， 这 一 点 我 们 在 前 面 介 绍 过 ) ， 第 二 个 数据 包 是 服 
务 器 反馈 的 DNS 应 答 报 文 。 





第 一 个 数据 包 中 ， 数 值 57428 是 DNS 查询 报 文 的 标识 值 ， 因 此 该 值 
也 出 现在 DNS 应 管 报 文中 。“+” 表 示 局 用 递归 但 询 标 志 。“A?” 表 示 使 用 
A 类 型 的 查询 方式 。“www.baidu.com” 则 是 DNS 查 询问 题 中 的 查询 名 。 
括号 中 的 数值 31 是 DNS 碍 询 报 文 的 长 度 〈 以 字 节 为 单位 ) 。 


第 二 个 数据 包 中 ,，“3/4/4” 表 示 该 报 文中 包含 3 个 应 答 资 源 记 录 、4 个 
授权 资源 记录 和 4 个 额外 信息 记录 。“CNAME www.a.shifen.com.，A 





119.75.218.77，A 119.75.217.56” 则 表示 3 个 应 答 资源 记录 的 内 容 。 其 中 
CNAME 表 示 紧 随 其 后 的 记录 是 机 器 的 别名 ，A 表 示 紧 随 其 后 的 记录 是 
了 P 地 址 。 该 应 答 报 文 的 长 度 为 226 字 节 。 





注意 我们 抓 包 的 时 候 没 有 开局 tcpdump 的 -X 选 项 (或 者 -x 选 
项 ) 。 如 果 使 用 -X 选 项 ， 我 们 将 能 看 到 DNS 报 文 的 每 一 个 字 节 ， 也 就 能 
明白 上 面 31 字 节 的 查询 报 文 和 226 字 节 的 应 答 报 文 的 具体 含义 。 限 于 篇 
幅 ， 这 里 不 再 讨论 ， 读 者 不 妨 自 己 分 析 。 








[1 “标识 ”和 “标志 ”在 《现代 汉语 词典 (第 5 版 ) 》 中 表示 同一 含 
义 , 但 是 在 本 书 中 (计算 机 业界 也 是 如 此 ) ， 它 们 为 两 个 概念 ， 代 表 不 


同 的 含义 ， 读 者 
i 
阅读 时 应 严格 区 分 


1.7 ”socket 和 TCP/IP 协 议 族 的 关系 


前 文 提 到 ， 数 据 链 路 层 、 网 络 层 、 传 输 层 协议 是 在 内 核 中 实现 的 。 
因此 操作 系统 需要 实现 一 组 系统 调用 ， 使 得 应 用 程序 能 够 访问 这 些 协 议 
提供 的 服务 。 实 现 这 组 系统 调用 的 API (Application Programming 
Interface， 应 用 程序 编程 接口 ) 主要 有 两 套 : socket 和 XTI。XTI 现 在 基 
本 不 再 使 用 ， 本 书 仅 讨 论 socket。 图 1-1 显 示 了 socket 与 TCP/IP 协 议 族 的 





由 socket 定 义 的 这 一 组 API 提 供 如 下 两 点 功能 : 一 是 将 应 用 程序 数据 
从 用 户 缓 冲 区 中 复制 到 TCP/UDP 内 核发 送 缓冲 区 ， 以 交付 内 核 来 发 送 数 
据 〈( 比 如 图 1-5 所 示 的 send 函 数 ) ， 或 者 是 从 内 核 TCP/UDP 接 收 缓冲 区 
中 复制 数据 到 用 户 绥 冲 区 ， 以 读 取 数据 ， 二 是 应 用 程序 可 以 通过 它们 来 
修改 内 核 中 各 层 协议 的 茶 些 头 部 信息 或 其 他 数据 结构 ， 从 而 精细 地 控制 
底层 通信 的 行为 。 比 如 可 以 通过 setsockopt 函 数 来 设置 IP 数 据 报 在 网 络 上 
的 存活 时 间 。 我 们 将 在 第 5 章 详 细 讨论 这 一 组 API。 














值得 一 提 的 是 ，socket 是 一 套 通 用 网 络 编程 接口 ， 它 不 但 可 以 访问 
内 核 中 TCP/IP 协 议 栈 ， 而 且 可 以 访问 其 他 网 络 协 议 栈 (比如 X.25 协 议 
栈 、UNIX 本 地 域 协议 栈 等 ) 。 


第 2 章 ”IP 协 议 详解 





IP 协 议 是 TCP/IP 协 议 族 的 核心 协议 ， 也 是 socket 网 络 编程 的 基础 之 
一 。 本 音 从 两 个 方面 较为 深入 地 探讨 了 协议: 


DIP 头 部 信息 。 卫 头 部 信息 出 现在 每 个 了 数据 报 中 ， 用 于 指定 卫 通 
信 的 源 端 耳 地址、 目的 端 耻 地 址 ， 指 导 耳 分 片 和 重组 ， 以 及 指定 部 分 通 


DIP 数 据 报 的 路 由 和 转发 。 耳 数据 报 的 路 由 和 转发 发 生 在 除 目 标 机 
如 之 外 的 所 有 主机 和 路 由 器 上 。 它 们 决定 数据 报 是 否 应 该 转发 以 及 如 何 
转发 。 


由 于 32 位 表示 的 耻 地 址 即将 全 部 使 用 完 ， 因 此 人 们 开发 出 了 新 版 本 
的 耳 协议 ， 称 为 IPv6 协 议 ， 而 原来 的 版 本 则 称 为 IPv4 协 议 。 本 章 前 面部 
分 的 讨论 都 是 基于 IPv4 协 议 的 ， 只 在 最 后 一 市 简要 讨论 IPV6 协 议 。 





在 开始 讨论 前 ， 我 们 先 简单 介绍 一 下 耳 服务 。 
2.1 ”IP 服务 的 特点 


IP 协 议 是 TCP/IP 协 议 族 的 动力 ， 它 为 上 层 协 议 提 供 无 状态 、 无 连 
接 、 不 可 徘 的 服务 。 


无 状态 〈stateless) 是 指 了 通信 双方 不 同步 传输 数据 的 状态 信息 ， 
因此 所 有 IP 数 据 报 的 发 送 、 传 输 和 接收 都 是 相互 独立 、 没 有 上 下 文 关系 
的 。 这 种 服务 最 大 的 缺点 是 无 法 处 理 乱 序 和 重复 的 IP 数 据 报 。 比 如 发 送 
端 发 送出 的 第 N 个 JP 数据 报 可 能 比 第 N+1 个 IP 数 据 报 后 到 达 接 收 端 ， 而 
同一 个 IP 数 据 报 也 可 能 经 过 不 同 的 路 径 多 次 到 达 接 收 端 。 在 这 两 种 情况 
下 ， 接 收 端的 卫 模 块 无 法 检测 到 乱 序 和 重复 ， 因 为 这 些 耻 数据 报 之 间 没 
有 任何 上 下 文 关系 。 接 收 端的 耳 模 块 只 要 收 到 了 完整 的 卫 数 据 报 〈 如 果 
是 IP 分 片 的 话 ，IP 模 块 将 先 执 行 重组 ) ， 就 将 其 数据 部 分 〈TCP 报 文 
段 、UDP 数 据 报 或 者 ICMP 报 文 ) 上 交 给 上 层 协 议 。 那 么 从 上 层 协议 来 
看 ， 这 些 数 据 就 可 能 是 乱 序 的 、 重 复 的 。 面 向 连接 的 协议 ， 比 如 TCP 协 
议 ， 则 能 够 自己 处 理 乱 序 的 、 重 复 的 报 文 段 ， 它 递交 给 上 层 协 议 的 内 容 
绝对 是 有 序 的 、 正 确 的 。 








虽然 卫 数 据 报头 部 提供 了 一 个 标识 字段 〈 见 后 文 ) 用 以 唯一 标识 一 
个 IP 数 据 报 ， 但 它 是 被 用 来 处 理 IP 分 片 和 重组 的 ， 而 不 是 用 来 指示 接收 
顺序 的 。 


无 状态 服务 的 优点 也 很 明显 : 简单 、 高 效 。 我 们 无 须 为 保持 通信 的 
状态 而 分 配 一 些 内 核资 源 ， 也 无 须 每 次 传输 数据 时 都 携带 状态 信息 。 在 
网 络 协议 中 ， 无 状态 是 很 常见 的 ， 比 如 UDP 协议 和 HTTP 协 议 都 是 无 状 
态 协议 。 以 HTTP 协 议 为 例 ， 一 个 浏览 器 的 连续 两 次 网 页 请 求 之 间 没 有 
任何 关联 ， 它 们 将 被 web 服务 器 独立 地 处 理 。 





无 连接 (connectionless〉 是 指 IP 通 信 双 方 都 不 长 久 地 维持 对 方 的 任 
何 信息 。 这 样 ， 上 层 协 议 每 次 发 送 数据 的 时 候 ， 都 必须 明确 指定 对 方 的 
IP 地 址 。 


不 可 靠 是 指 IP 协 议 不 能 保证 卫 数 据 报 准 确 地 到 达 接 收 端 ， 它 只 是 承 
诡 尽 最 大 努力 〈best effort) 。 很 多 种 情况 都 能 导致 了 数据 报 发 送 失 败 。 
比如 ， 某 个 中 转 路 由 器 发 现 耻 数据 报 在 网 络 上 存活 的 时 间 太 长 “根据 了 
数据 报头 部 字段 TITL 判 断 ， 见 后 文 ) ， 那 么 它 将 丢弃 之 ， 并 返 
ICMP 错 误 消息 (超时 错误 ) 给 发 送 端 。 又 比如 ， 接 收 端 发 现 收 到 的 IP 
数据 报 不 正确 〈 通 过 校 验 机 制 ) ， 它 也 将 丢弃 之 ， 并 返回 一 个 ICMP 错 
误 消 息 〈IP 头 部 参数 错误 ) 给 发 送 端 。 无 论 哪 种 情况 ， 发 送 端的 卫 模 块 
一 旦 检测 到 IP 数 据 报 发 送 失 败 ， 就 通知 上 层 协议 发 送 失 败 ， 而 不 会 试图 
重 传 。 因 此 ， 使 用 IP 服 务 的 上 层 协 议 〈 比 如 TCP 协 议 ) 需要 自己 实现 数 
据 确 认 、 超 时 重 传 等 机 制 以 达到 可 靠 传 输 的 目的 。 





2.2 JIPv4 头 部 结构 


2.2.1 JIPv4 头 部 结构 


IPv4 的 头 部 结构 如 图 2-1 所 示 。 其 长 度 通 单 为 20 字 节 ， 除 非 含有 可 
变 长 的 选项 部 分 。 
了 16 位 总 长 度 字 节 数 ) 


16 位 标识 13 位 片 偏 移 


8 位 生存 时 间 EN ER 
32 位 源 端 PP 地 址 


32 位 目的 端 耻 地 址 





选项 ， 最 多 40 字 节 


r 一 一 一 一 





图 2-1 IPv4 头 部 结构 


4 位 版 本 号 (version) 指定 IP 协 议 的 版 本 。 对 IPv4 来 襄 ， 其 值 是 4。 
其 他 IPv4 协 议 的 扩展 版 本 (如 SIP 协 议和 PIP 协 议 ) ， 则 有 具 有 不 同 的 版 本 
号 《它们 的 头 部 结构 也 和 图 2-1 不 同 ) 。 


4 位 头 部 长 度 (header length) 标识 该 IP 头 部 有 多 少 个 32 bit 字 〈4 字 


节 ) 。 因 为 4 位 最 大 能 表示 15， 所 以 IP 头 部 最 长 是 60 字 节 。 








8 位 服务 类 型 (Type Of Service，TOS) 包括 一 个 3 位 的 优先 权 字段 
《现在 已 经 被 忽略 ) ，4 位 的 TOS 字 段 和 1 位 保留 字段 〈 必 须 置 0) 。4 位 
的 TOS 字 段 分 别 表示 : 最 小 延 时 ， 最 大 吞吐 量 ， 最 高 可 靠 性 和 最 小 费 
用 。 其 中 最 多 有 一 个 能 置 为 1， 应 用 程序 应 该 根据 实际 需要 来 设置 它 。 
比如 像 sh 和 telnet 这 样 的 登录 程序 需要 的 是 最 小 延 时 的 服务 ， 而 文件 传 
和 输 程 序 fp 则 需要 最 大 吞吐 量 的 服务 。 





























16 位 总 长 度 (total length〉 是 指 整个 IP 数 据 报 的 长 度 ， 以 字 节 为 单 
位 ， 因 此 IP 数 据 报 的 最 大 长 度 为 65 535(216 -1) 字 节 。 但 由 于 MTU 的 限 
制 ， 长 度 超过 MTU 的 数据 报 都 将 被 分 片 传输 ， 所 以 实际 传输 的 IP 数 据 报 
(或 分 片 ) 的 长 度 都 远 远 没有 达到 最 大 值 。 接 下 来 的 3 个 字段 则 描述 了 
如 何 实 现 分 片 。 











16 位 标识 (identification〉 唯 一 地 标识 主机 发 送 的 每 一 个 数据 报 。 
其 初始 值 由 系统 随机 生成 ， 每 发 送 一 个 数据 报 ， 其 值 就 加 1。 该 值 在 数 
据 报 分 片 时 被 复制 到 每 个 分 片 中 ， 因 此 同一 个 数据 报 的 所 有 分 片 都 具有 
相同 的 标识 值 。 








3 位 标志 字段 的 第 一 位 保留 。 第 二 位 (Don't Fragment，DF) 表 
示 “ 禁 止 分 片 "”” 如 果 设 置 了 这 个 位 ，IP 模 块 将 不 对 数据 报 进行 分 片 。 在 
这 种 情况 下 ， 如 果 IP 数 据 报 长 度 超过 MTU 的 话 ，IP 模 块 将 丢弃 该 数据 报 
并 返回 一 个 ICMP 差 错 报 文 。 第 三 位 (More Fragment，MF) 表示 “更 多 
分 片 ”。 除 了 数据 报 的 最 后 一 个 分 片 外 ， 其 他 分 片 都 要 把 它 置 1。 


13 位 分 片 偏 移 (fragmentation offset) 是 分 片 相 对 原始 IP 数 据 报 开始 
处 《〈 仅 指数 据 部 分 ) 的 偏 移 。 实 际 的 偏 移 值 是 该 值 左 移 3 位 〈 乘 8) 后 得 
到 的 。 由 于 这 个 原因 ， 除 了 最 后 一 个 IP 分 片 外 ， 每 个 IP 分 片 的 数据 部 分 
的 长 度 必须 是 8 的 整数 倍 ( 这 样 才能 保证 后 面 的 IP 分 片 拥有 一 个 合适 的 
偏 移 值 ) 。 








8 位 生存 时 间 (Time To Live，TIL ) 是 数据 报到 达 目 的 地 之 前 允许 
经 过 的 路 由 器 跳 数 。TTL 值 被 发 送 端 设置 〈 常 见 的 值 是 64) 。 数 据 报 在 
转发 过 程 中 每 经 过 一 个 路 由 ， 该 值 就 被 路 由 器 减 1。 当 TITL 值 减 为 0 时 ， 
路 由 器 将 丢弃 数据 报 ， 并 疝 源 端 发 送 一 个 ICMP 差 错 报 文 。TTL 值 可 以 
防止 数据 报 陷入 路 由 循环 。 








8 位 协议 〈protocol) 用 来 区 分 上 层 协 议 ， 我 们 在 第 1 章 讨 论 
过 。/etc/protocols 文 件 定义 了 所 有 上 层 协 议 对 应 的 protocol 字 段 的 数值 。 
其 中 ，ICMP 是 1，TCP 是 6，UDP 是 17。/etc/protocols 文 件 是 RFC 1700 的 
二 2 全 


16 位 头 部 校 验 和 (header checksum〉 由 发 送 端 填充 ， 接 收 端 对 其 使 
用 CRC 算 法 以 检验 也 数据 报头 部 “〈 注 意 ， 仅 检验 头 部 ) 在 传输 过 程 中 是 
否 损 坏 。 


32 位 的 源 端 耻 地 址 和 目的 端 耻 地 址 用 来 标识 数据 报 的 发 送 端 和 接收 
端 。 一 般 情 况 下 ， 这 两 个 地 址 在 整个 数据 报 的 传递 过 程 中 保持 不 变 ， 而 


不 论 它 中 间 经 过 多 少 个 中 转 路 由 器 。 关 于 这 一 点 ， 我 们 将 在 第 4 章 进 一 


步 讨论 。 





IPv4 最 后 一 个 选项 字段 〈option) 是 可 变 长 的 可 选 信息 。 这 部 分 最 
多 包含 40 字 节 ， 因 为 了 头 部 最 长 是 60 字 节 《〈 其 中 还 包含 前 面 讨论 的 20 字 
市 的 固定 部 分 )。 可 用 的 人 P 选 项 包括 : 








口 记录 路 由 (record route) ， 告 诉 数据 报 途 经 的 所 有 路 由 器 都 将 上 自 
己 的 PP 地 址 填 入 IP 头 部 的 选项 部 分 ， 这 样 我们 就 可 以 跟踪 数据 报 的 传递 
路 径 。 


口 时 间 戳 〈timestamp) ， 告 诉 每 个 路 由 器 都 将 数据 报 被 转发 的 时 间 
(或 时 间 与 IP 地 址 对 ) 填 入 下 头 部 的 选项 部 分 ， 这 样 就 可 以 测量 途经 路 
由 之 间 数 据 报 传输 的 时 间 。 


口 松散 源 路 由 选择 (loose source routing) ， 指 定 一 个 路 由 器 IP 地 址 
列表 ， 数 据 报 发 送 过 程 中 必须 经 过 其 中 所 有 的 路 由 器 。 





口 严 格 源 路 由 选择 (strict source routing ) ， 和 松散 源 路 由 选择 类 
似 ， 不 过 数据 报 只 能 经 过 被 指定 的 路 由 器 。 





关于 卫 头 部 选项 字段 更 详细 的 信息 ， 请 参考 也 协议 的 标准 文档 RFC 
791。 不 过 这 些 选项 字段 很 少 被 使 用 ， 使 用 松散 源 路 由 选择 和 严格 源 路 
由 选择 选项 的 例子 大 概 仅 有 traceroute 程 序 。 此 外 ， 作 为 记录 路 由 IP 选 项 


的 蔡 代 品 ，traceroute 程 序 使 用 UDP 报 文 和 ICMP 报 文 实现 了 更 可 靠 的 记 
录 路 由 功能 ， 详 情 请 参考 文档 REFC 1393。 


2.2.2 ”使 用 tcpdump 观 察 IPv4 头 部 结构 


为 了 深入 理解 IPv4 头 部 中 每 个 字段 的 含义 ， 我 们 从 测试 机 器 ernest- 
laptop 上 执行 telnet 命 令 登 录 本 机 ， 并 用 tcpdump 抓 取 这 个 过 程 中 telnet 客 
户 端 程序 和 telnet 服 务 器 程序 之 间 交 换 的 数据 包 。 有 具体 的 操作 过 程 如 
下 : 








$sudo tcpdump-ntx- lo# 抓 取 本 地 回路 上 的 数据 包 
Stelnet 127.0.0.1# 开 启 另 一 个 终端 执行 telnet 命 令 登 录 本 机 
下 区 于 二 二 人 站 攻 0 Us yy 

Connected to 127.0.0.1. 

Escape character is'^]'. 

Ubuntu 9.10 

ernest-laptop login:ernest# 输 入 用 户 名 并 回 车 
Password:# 输 入 密码 并 回 车 























此 时 观察 tepdump 输 出 的 第 一 个 数据 包 ， 其 内 容 如 代码 清单 2-1 所 


代码 清单 2-1 用 tcpdump 抓 取 数 据 包 





IP 127.0.0.1.41621>127.0.0.1.23:Flags[S]，seq 3499745539,win 
32792/ 
options [mss 16396,sackOK,TS val 40781017 ecr 0,nop,wscale 
6],length 0 
0x0000:4510 003c a5da 4000 4006 96cf 7f00 0001 
0x0010:7f00 0001 a295 0017 d099 e103 0000 0000 
0x0020:a002 8018 fe30 0000 0204 400c 0402 080a 























0x0030:026e 44d9 0000 0000 0103 0306 





该 数据 包 描述 的 是 一 个 IP 数 据 报 。 由 于 我 们 是 使 用 telnet 登 录 本 机 
的 ， 所 以 IP 数 据 报 的 源 端 ITP 地 址 和 目的 端 P 地 址 都 是 “127.0.0.1”。telnet 
服务 器 程序 使 用 的 端口 号 是 23〈 参 见 /etc/services 文 件 ) ， 而 telnet 客 户 端 
程序 使 用 临时 端口 号 41621 与 服务 器 通信 。 关 于 临时 端口 号 ， 我 们 将 在 
第 3 章 讨论 。 "Flags” “sed” “win 和 “options” 描 述 的 都 是 TCP 头 部 信 
让 ， 这 也 将 在 第 3 章 讨论 。“length” 指 出 该 IP 数 据 报 所 携带 的 应 用 程序 数 
据 的 长 度 。 


这 次 抓 包 我 们 开启 了 tcpdump 的 -x 选项 ， 使 之 输出 数据 包 的 二 进 制 
人 码 。 此 数据 包 共 包含 60 字 节 ， 其 中 前 20 字 节 是 IP 头 部 ， 后 40 字 节 是 TCP 
头 部 ， 不 包含 应 用 程序 数据 〈length 值 为 0) 。 现 在 我 们 分 析 卫 头 部 的 每 


个 学 节 ， 如 表 2-1 所 未 。 





表 2-1 1IPv4 头 部 各 个 字段 详解 


十 六 进 制 数 十 进 制 表示 ” IP 头 部 信息 
Ox4 4 IP 版 本 号 


0x5 头 部 长 度 为 5 个 32 位 (20 字 节 ) 


| 
0x10 TOS 选项 中 最 小 延 时 服务 被 开启 
0x003c 数据 报 总 长 度 ，60 字 节 
OxaSda 数据 报 标 识 
0x4 设置 了 禁止 分 片 标志 
| 
64 
| 
| | 














0x000 分 片 偏 移 

0x40 TTL 被 设 为 64 

0x06 协议 字段 为 6， 表示 上 层 协议 是 TCP 协议 
Ox96cf IP 头 部 校 验 和 

0x7f000001 32 位 源 端 卫 地 址 127.0.0.1 

0x7f000001 32 位 目的 端 耻 地址 127.0.0.1 














由 表 2-1 可 见 ，telnet 服 务 选择 使 用 具有 最 小 延 时 的 服务 ， 并 且 默 认 
使 用 的 传输 层 协 议 是 TCP 协 议 〈 回 顾 第 1 章 讨论 的 分 用 ) 。 这 些 都 符合 
我 们 通常 的 理解 。 这 个 IP 数 据 报 没有 被 分 片 ， 因 为 它 没 有 携带 任何 应 用 
程序 数据 。 接 下 来 我 们 将 抓 取 并 讨论 被 分 片 的 IP 数 据 报 。 


[1] 此 列 中 的 空格 表示 我 们 并 不 关心 相应 字段 的 十 进 制 值 。 


前 文 曾 提 到 ， 当 IP 数 据 报 的 长 度 超过 帧 的 MTU 时 ， 它 将 被 分 卢 传 
输 。 分 片 可 能 发 生 在 发 送 端 ， 也 可 能 发 生 在 中 转 路 由 器 上 ， 而 且 可 能 在 
传输 过 程 中 被 多 次 分 片 ， 但 只 有 在 最 终 的 目标 机 器 上 ， 这 些 分 片 才 会 被 
内 核 中 的 了 P 模 块 重新 组 装 。 


IP 头 部 中 的 如 下 三 个 字段 给 人 P 的 分 片 和 重组 提供 了 足够 的 信息 :; 数 
据 报 标识 、 标 志和 片 仿 移 。 一 个 IP 数 据 报 的 每 个 分 片 都 具有 自己 的 IP 头 
部 ， 它 们 具有 相同 的 标识 值 ， 但 具有 不 同 的 片 偏 移 。 并 且 除 了 最 后 一 个 
分 片 外 ， 其 他 分 片 都 将 设置 MF 标志 。 此 外 ， 每 个 分 片 的 IP 头 部 的 总 长 
上 度 字段 将 被 设置 为 该 分 片 的 长 度 。 











以 太 网 帧 的 MTU 是 1500 字 节 (可 以 通过 ifconfig 命 令 或 者 netstat 命 令 
查看 ) ， 因 此 它 携带 的 人 P 数 据 报 的 数据 部 分 最 多 是 1480 字 节 〈IP 头 部 占 
用 20 字 市 ) 。 考 虑 用 IP 数 据 报 封装 一 个 长 度 为 1481 字 节 的 ICMP 报 文 
《包括 8 字 节 的 ICMP 头 部 ， 所 以 其 数据 部 分 长 度 为 1473 字 节 ) ， 则 该 数 
据 报 在 使 用 以 太 网 帧 传输 时 必须 被 分 片 ， 如 图 2-2 所 示 。 


IP 数 据 报 〈1501 字 节 ) 
ICMP 报 文 (1481 字 节 ) 
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8 字 节 1472 字 节 
IP 分 片 “1500 字 节 ) 


20 字 节 1 字 节 
IP 分 片 〈21 字 节 ) 





图 2-2 携带 ICMP 报 文 的 IP 数 据 报 被 分 片 


图 2-2 中 ， 长 度 为 1501 字 节 的 IP 数 据 报 被 拆 分 成 两 个 IP 分 片 ， 第 一 个 
IP 分 片 长 度 为 1500 字 节 ， 第 二 个 耻 分 片 的 长 度 为 21 字 节 。 每 个 了 了 分 片 都 
包含 自己 的 耳 头 部 〈20 字 节 ) ， 且 第 一 个 耻 分 片 的 下 头 部 设置 了 MEF 标 
志 ， 而 第 二 个 了 分 片 的 耳 头 部 则 没有 设置 该 标志 ， 因 为 它 已 经 是 最 后 一 
个 分 片 了 。 原 始 IP 数 据 报 中 的 ICMP 头 部 内 容 被 完整 地 复制 到 了 第 一 个 
IP 分 片 中 。 第 二 个 耻 分 片 不 包含 ICMP 头 部 信息 ， 因 为 了 模块 重组 该 
ICMP 报 文 的 时 候 只 需要 一 份 ICMP 头 部 信息 ， 重 复 传送 这 个 信息 没有 任 
何 益 处 。1473 字 节 的 ICMP 报 文 数据 的 前 1472 字 节 被 卫 模 块 复制 到 第 一 
个 IP 分 片 中 ， 使 其 总 长 度 为 1500 字 节 ， 从 而 满足 MTU 的 要 求 ; 而 多 出 的 
最 后 1 字 节 则 被 复制 到 第 二 个 IP 分 片 中 。 


再 要 指出 的 是 ，ICMP 报 文 的 头 部 长 度 取决 于 报 文 的 类 型 ， 其 变化 
范围 很 大 。 图 2-2 以 8 字 节 为 例 ， 因 为 后 面 的 例子 用 到 了 ping 程 序 ， 而 
ping 程 序 使 用 的 ICMP 回 显 和 应 答 报 文 的 头 部 长 度 是 8 字 布 。 





为 了 看 清楚 IP 分 卢 的 具体 过 程 ， 考 虑 从 ernest-laptop 来 ping 机 器 
Kongming20， 每 次 传送 1473 字 节 的 数据 (这 是 ICMP 报 文 的 数据 部 分 ) 
以 强制 引起 IP 分 片 ， 并 用 tcpdump 抓 取 这 一 过 程 中 双方 交换 的 数据 包 。 
具体 操作 过 程 如 下 : 








$sudo tcpdump-ntv-i eth0 icmp# 只 抓 取 ICMP 报 文 
Sping Kongming20-s 1473# 用 -s 选 项 指定 每 次 发 送 1473 字 节 的 数据 














下 面 我 们 考察 tcpdump 输 出 的 一 个 IP 数 据 报 的 两 个 分 片 ， 其 内 容 如 























1.IP(tos Ox0,ttl1 64,id 61197,offset 0,flags[+],proto 
ICMP(1),1length 1500)192.168.1.108>>192.168.1.110:ICMP echo reduesty id 
41737,seq 1,length 1480 

2.IP(tos Ox0,ttl1 64,id 61197,offset 1480,flags[lnonel,proto 
JOMP{1T) yy Length 21)192, L168.1, 1087192.168, L110r7ienmp 















































这 两 个 IP 分 片 的 标识 值 都 是 61197， 说 明 它 们 是 同一 个 IP 数 据 报 的 
分 片 。 第 一 个 分 片 的 片 偏 移 值 为 0， 而 第 二 个 则 是 1480。 很 显然 ， 第 二 
个 分 片 的 片 偏 移 值 实际 上 也 是 第 一 个 分 片 的 ICMP 报 文 的 长 度 。 第 一 个 
分 片 设置 了 MF 标志 以 表示 还 有 后 续 分 片 ， 所 以 tcpdump 输 出 “flags[+]”。 
而 第 二 个 分 片 则 没有 设置 任何 标志 ， 所 以 trpdump 输 出 “flags[none]j”。 这 
个 两 个 分 片 的 长 度 分 别 为 1500 字 节 和 21 字 节 ， 这 与 图 2-2 描 述 的 一 致 。 








最 后 ，IP 层 传递 给 数据 链 路 层 的 数据 可 能 是 一 个 完整 的 了 数据 报 ， 
也 可 能 是 一 个 耻 分 片 ， 它 们 统称 为 卫 分 组 〈packet) 。 本 书 如 无 特殊 声 


明 ， 不 区 分 IP 数 据 报 和 IP 分 组 。 


2.4 ”IP 路 由 


PP 协议 的 一 个 核心 任务 是 数据 报 的 路 由 ， 即 决定 发 送 数据 报到 目标 
机 器 的 路 径 。 为 了 理解 正路 由 过 程 ， 我 们 移 简要 分 析 了 模块 的 基本 工作 


流程 。 
2.4.1 ”IP 模块 工作 流程 


IP 模 块 基本 工作 流程 如 图 2-3 所 示 。 





发 往 网 络 驱动 程序 来 目 网 络 驱动 程序 


图 2-3 ”IP 模块 基本 工作 流程 


我 们 从 右 往 左 来 分 析 图 2-3。 当 IP 模 块 接收 到 来 自 数 据 链 路 层 的 IP 数 
据 报 时 ， 它 首先 对 该 数据 报 的 头 部 做 CRC 校 验 ， 确 认 无 误 之 后 就 分 析 其 
头 部 的 具体 信息 。 





如 果 该 IP 数 据 报 的 头 部 设置 了 源 站 选 路 选项 《松散 源 路 由 选择 或 严 
格 源 路 由 选择 ) ， 则 IP 模 块 调用 数据 报 转 发 子 模 块 来 处 理 该 数据 报 。 如 
果 该 PP 数据 报 的 头 部 中 目标 IP 地 址 是 本 机 的 某 个 IP 地 址 ， 或 者 是 广播 地 
址 ， 即 该 数据 报 是 发 送 给 本 机 的 ， 则 JP 模 块 就 根据 数据 报头 部 中 的 协议 
字段 来 决定 将 它 派 发 给 哪个 上 层 应 用 《分 用 ) 。 如 果 IP 模 块 发 现 这 个 数 
据 报 不 是 发 送 给 本 机 的 ， 则 也 调用 数据 报 转发 子 模块 来 处 理 该 数据 报 。 





数据 报 转发 子 模块 将 首先 检测 系统 是 否 允 许 转 发 ， 如 果 不 允 许 ，IP 
模块 就 将 数据 报 于 茎 。 如 果 人 允许 ， 数 据 报 转 友 子 模块 将 对 该 数据 报 执 行 
一 些 操作 ， 然 后 将 它 交 给 IP 数 据 报 输出 子 模 块 。 我 们 将 在 后 面 讨论 数据 
报 转发 的 具体 过 程 。 


了 数据 报应 该 发 送 全 哪个 下 一 跳 路 由 《或 者 目标 机 器 ) ， 以 及 经 过 
哪个 网 卡 来 发 送 ， 就 是 耳 路 由 过 程 ， 即 图 2-3 中 “计算 下 一 跳 路 由 ? 子 模 
块 。 卫 模块 实现 数据 报 路 由 的 核心 数据 结构 是 路 由 表 。 这 个 表 按 照 数据 
报 的 目标 耳 地址 分 类 ， 同 一 类 型 的 了 数据 报 将 被 发 往 相 同 的 下 一 跳 路 由 
器 《或 者 目标 机 器 ) 。 我 们 将 在 后 面 讨论 了 路 由 过 程 。 





IP 输 出 队列 中 存放 的 是 所 有 等 待 发 送 的 IP 数 据 报 ， 其 中 除了 需要 转 


发 的 了 数据 报 外 ， 还 包括 封装 了 本 机 上 层 数 据 〈ICMP 报 文 、TCP 报 文 段 
和 UDP 数据 报 ) 的 卫 数 据 报 。 


图 2-3 中 的 虚线 箭头 显示 了 路 由 表 更 新 的 过 程 。 这 一 过 程 是 指 通过 
路 由 协议 或 者 route 命 令 调 整 路 由 表 ， 使 之 更 适应 最 新 的 网 络 拓扑 结构 ， 
称 为 卫 路 由 人 策略。 我 们 将 在 后 面 简单 讨论 写 。 


2.4.2 ”路 由 机 制 


要 研究 IP 路 由 机 制 ， 需 要 先 了 解 路 由 表 的 内 容 。 我 们 可 以 使 用 route 
命令 或 netstat 命 令 查 看 路 由 表 。 在 测试 机 器 ernest-laptop 上 执行 route 命 
令 ， 输 出 内 容 如 代码 清单 2-2 所 示 。 


代码 清单 2-2 ”路 由 表 实 例 








Kernel IP routing table 


Destination Gateway Genmask Flags Metric Ref 
192.168.1.1 0.0.0.0 UG 0 0 0 eth0 








defauilt 











192.168.1 


O250565255a235950 U1 0 0 ethd 





Use If 











该 路 由 表 包 含 两 项 ， 每 项 都 包含 8 个 字段 ， 如 表 2-2 所 示 。 


表 2-2 路 由 表 内 容 


字 段 含 义 
Destination 目标 网 络 或 主机 
Gateway 网 关 地 址 ，* 表示 目标 和 本 机 在 同一 个 网 络 ， 不 需要 路 由 
Genmask 网 络 掩 码 
路 由 项 标志 ， 常 见 标志 有 如 下 5 种 (更 多 标志 见 route 命令 的 man 手册): 


口 U， 该 路 由 项 是 活动 的 ; 
口 H， 该 路 由 项 的 目标 是 一 台 主 机 ; 














Megs 口 G， 该 路 由 项 的 目标 是 网 关 ， 

口 D， 该 路 由 项 是 由 重 定向 生成 的 ; 

口 M， 该 路 由 项 被 重 定 向 修改 过 
Metric 路 由 距离 ， 即 到 达 指 定 网 络 所 需 的 中 转 数 
Ref 路 由 项 被 引用 的 次 数 〈Linux 未 使 用 ) 
Use 该 路 由 项 被 使 用 的 次 数 
Iface 该 路 由 项 对 应 的 输出 网 卡 接口 


代码 清单 2-2 所 示 的 路 由 表 中 ， 第 一 项 的 目标 地 址 是 default， 即 所 谓 
的 默认 路 由 项 。 该 项 包含 一 个 “G” 标 志 ， 说 明 路 由 的 下 一 跳 目 标 是 网 
关 ， 其 地 址 是 192.168.1.1《 这 是 测试 网 络 中 路 由 器 的 本 地 IP 地 址 ) 。 另 
外 一 个 路 由 项 的 目标 地 址 是 192.168.1.0， 它 指 的 是 本 地 局 域 网 。 该 路 由 
项 的 网 关 地 址 为 *， 说 明 数 据 报 不 需要 路 由 中 转 ， 可 以 直接 发 送 到 目标 
机 器 。 


那么 路 由 表 是 如 何 按照 耳 地址 分 类 的 呢 ? 或 者 说 给 定数 据 报 的 目标 
IP 地 址 ， 它 将 匹配 路 由 表 中 的 哪 一 项 昵 ?这 束 古 IP 的 路 由 机 制 ， 分 为 3 


个 步 又: 





1) 俘 找 路 由 表 中 和 数据 报 的 目标 IP 地 址 完全 匹配 的 主机 IP 地 址 。 
如 果 找 到 ， 就 使 用 该 路 由 项 ， 没 找到 则 转 步 又 2。 


2) 查找 路 由 表 中 和 数据 报 的 目标 IP 地 址 具有 相同 网 路 ID 的 网 络 IP 
地 址 《比如 代码 清单 2-2 所 示 的 路 由 表 中 的 第 二 项 ) 。 如 果 找 到 ， 就 使 
用 该 路 由 项 ; 没 找 到 则 转 步 又 3。 


3) 选择 默认 路 由 项 ， 这 通常 意味 着 数据 报 的 下 一 跳 路 由 是 网 关 。 


因此 ， 对 于 测试 机 器 ernest-laptop 而 言 ， 所 有 发 送 到 IP 地 址 为 
192.168.1.* 的 机 器 的 IP 数 据 报 都 可 以 直接 发 送 到 目标 机 器 (匹配 路 由 表 
第 二 项 ) ， 而 所 有 访问 因特网 的 请 求 都 将 通过 网 关 来 转发 (匹配 默认 路 
由 项 ) 。 





2.4.3 ”路 由 表 更 新 


路 由 表 必 须 能 够 更 新 ， 以 反映 网 络 连 接 的 变化 ， 这 样 卫 模块 才能 准 
确 、 高 效 地 转发 数据 报 。route 命 令 可 以 修改 路 由 表 。 我 们 看 如 下 几 个 例 
子 〈 在 机 器 ernest-laptop 上 执行 ) : 


add-host 192.168.1.109 dev eth0 
del-net 192.168.1.0 netmask 255.255.255.0 


$sudo rout 
$sudo rout 
$sudo rout 
$sudo rout 























Dm © nm 
Ie 
(0 
[eR 
(0 
9 
名 





add default gw 192.168.1.109 dev ethd 





第 1 行 表示 添加 主机 192.168.1.109 (机 器 Kongming20)〉 对 应 的 路 由 
项 。 这 样 设 置 之 后 ， 所 有 从 ernest-laptop 发 送 到 Kongming20 的 IP 数 据 报 
将 通过 网 卡 eth0 直 接 发 送 至 目标 机 器 的 接收 网 卡 。 第 2 行 表示 删除 网 络 





192.168.1.0 对 应 的 路 由 项 。 这 样 ， 除 了 机 器 Kongming20 外 ， 测 试 机 器 
ernest-laptop 将 无 法 访问 该 局 域 网 上 的 任何 其 他 机 器 (能 访问 到 
Kongming20 是 由 于 执行 了 上 一 条 命令 ) 。 第 3 行 表示 删除 默认 路 由 项 ， 
这 样 做 的 后 果 是 无 法 访问 因特网 。 第 4 行 表示 重新 设置 默认 路 由 项 ， 不 

这 次 其 a nd 
器 ) ! 经 过 上 述 修改 后 的 路 由 表 如 下 : 














Kernel IP routing table 

Destination Gateway Genmask Flags Metric Ref Use Iface 
Kongming20*2535.23555255255 UH 0 0 reg 

default Kongming20 0.0.0.0 UG 0 0 0 etho 


























这 个 新 的 路 由 表 中 ， 第 一 个 路 由 项 是 主机 路 由 项 ， 所 以 它 被 设置 
了 “H” 标 志 。 我 们 设计 这 样 一 个 路 由 表 的 目的 是 为 后 文 讨论 ICMP 重 定 问 
提供 环境 。 








通过 route 命 令 或 其 他 工具 手工 修改 路 由 表 ， 是 静态 的 路 由 更 新 方 
式 。 对 于 大 型 的 路 由 器 ， 它 们 通常 通过 BGP (Border Gateway Protocol， 
边际 网 关 协 议 ) 、RIP (Routing Information Protocol， 路 由 信息 协 
议 ) 、OSPF 等 协议 来 发 现 路 径 ， 并 更 新 自己 的 路 由 表 。 这 种 更 新 方式 
是 动态 的 、 自 动 的 。 这 部 分 内 容 超出 了 本 书 的 讨论 范围 ， 感 兴趣 的 读者 
可 阅读 参考 资料 1。 


2.5 ”IP 转 发 


前 文 提 到 ， 不 是 发 送 给 本 机 的 IP 数 据 报 将 由 数据 报 转发 子 模块 来 处 
理 。 路 由 器 都 能 执行 数据 报 的 转发 操作 ， 而 主机 一 般 只 发 送 和 接收 数据 
报 ， 这 是 因为 主机 上 /proc/sys/net/ipv4/ip_forward 内 核 参 数 默 认 被 设置 为 
0。 我 们 可 以 通过 修改 它 来 使 能 主机 的 数据 报 转发 功能 〈 在 测试 机 器 
Kongming20 上 以 root 身 份 执行 ) : 





#echo 1>/proc/sys/net/ipv4/ip forward 





对 于 允许 耻 数 据 报 转发 的 系统 《〈 主 机 或 路 由 器 ) ， 数 据 报 转发 子 模 
块 将 对 期 望 转发 的 数据 报 执 行 如 下 操作 : 





1) 检查 数据 报头 部 的 TTL 值 。 如 果 TTIL 值 已 经 是 09， 则 丢 痉 该 数据 
报 。 


2) 查看 数据 报头 部 的 严格 源 路 由 选择 选项 。 如 果 该 选项 被 设置 ， 
则 检测 数据 报 的 目标 IP 地 址 是 否 是 本 机 的 某 个 PP 地址 。 如 果 不 是 ， 则 发 
送 一 个 ICMP 源 站 选 路 失败 报 文 给 发 送 端 。 


3) 如 果 有 必要 ， 则 给 源 端 发 送 一 个 ICMP 重 定 同 报 文 ， 以 告诉 它 一 
个 更 合理 的 下 一 跳 路 由 器 。 


4) 将 TTL 值 减 1。 


5) 处 理 IP 头 部 选项 。 


6) 如 果 有 必要 ， 则 执行 IP 分 片 操作 。 


2.6 重 定 向 





图 2-3 显 示 了 ICMP 重 定向 报 文 也 能 用 于 更 新 路 由 表 ， 因 此 本 节 我 们 
简要 讨论 ICMP 重 定向 。 





2.6.1 ICMP 重 定向 报 文 





ICMP 重 定 癌 报 文 格式 如 图 2-4 所 示 。 


0 15 16 3 


8 位 类 型 8 位 代码 16 位 校 验 和 


应 该 使 用 的 路 由 器 的 下地 址 






原始 IP 数 据 报 的 头 部 信息 《包括 可 选 字段 ) + 数据 部 分 的 前 8 字 节 





图 2-4 ICMP 重 定向 报 文 格式 


我 们 在 1.1 节 讨论 过 ICMP 报 文 头 部 的 3 个 固定 字段 : 8 位 类 型 、8 位 代 
码 和 16 位 校 验 和 。ICMP 重 定向 报 文 的 类 型 值 是 c， 代 码 字 段 有 4 个 可 选 
值 ， 用 来 区 分 不 同 的 重 定 向 类 型 。 本 书 仅 讨 论 主机 重 定 向 ， 其 代码 值 为 
1。 

















ICMP 重 定 问 报 文 的 数据 部 分 含义 很 明确 ， 它 给 接收 方 提 供 了 如 下 
两 个 信息 : 


口 引 起 重 定向 的 卫 数 据 报 〈 即 图 2-4 中 的 原始 卫 数 据 报 ) 的 源 端 耳 地 
址 。 


口 应 该 使 用 的 路 由 口 的 耻 地 址 。 


接收 主机 根据 这 两 个 信息 就 可 以 断定 引起 重 定 同 的 卫 数 据 报 应 该 使 
用 哪个 路 由 器 来 转发 ， 并 且 以 此 来 更 新 路 由 表 《〈 通 党 是 更 新 路 由 表 绥 
种， 而 不 是 直接 更 改 路 由 表 ) 。 


/proc/sys/net/ipv4/conf/all/send_redirects 内 核 参数 指定 是 否 允 许 发 送 
ICMP 重 定向 报 文 ， 而 /proc/sys/net/ipv4/conf/all/accept_redirects 内 核 参 数 
则 指定 是 否 允 许 接 收 ICMP 重 定向 报 文 。 一 般 来 襄 ， 主 机 只 能 接收 ICMP 
重 定 癌 报 文 ， 而 路 由 此 只 能 发 送 ICMP 重 定 同 报 文 。 





2.6.2 ”主机 重 定 癌 实例 


2.4.3 节 中 ， 我 们 把 机 器 ernest-laptop 的 网 关 设置 成 了 机 器 
Kongming20，2.5 节 中 我 们 又 使 能 了 Kongming20 的 数据 报 转发 功能 ， 因 
此 机 器 ernest-laptop 将 通过 Kongming20 来 访问 因特网 ， 比 如 在 ernest- 
laptop 上 执行 如 下 ping 命 令 : 





Sping www.baidu.com 

PING www.a.shifen.com(119.75.217.56)56(84)bytes of data. 

From Kongming20 (192.168.1.109) :icmp seq=1 Redirect Host (New 
nexthop:192.168.1.1) 

64 bytes from 119.75.217.56:icmp seq=1 ttl1l=54 time=6.78 ms 


























---www.a.shifen.com ping statistics--- 
1 packets transmitted,l1 received,0%packet loss,time Oms 
rtt min/avg/max/mdev=6.789/6.789/6.789/0.000 ms 





从 ping 命 令 的 输出 来 看 ， Po ernest-laptop 发 送 了 一 个 
ICMP 重 定向 报 文 ， 告 诉 它 请 通过 192.168.1.1 来 访问 目标 机 器 ， 因 为 这 对 
ernest-laptop 来 说 是 更 合理 的 路 由 方式 。 当 主机 ernest-laptop 收 到 这 样 的 
ICMP 重 定 同 报 文 后 ， 它 将 更 新 其 路 由 表 绥 冲 《〈 使 用 命令 route-Cn 奉 
看 ) ， 并 使 用 新 的 路 由 方式 来 发 送 后 续 数据 报 。 上 面 讨论 的 重 定 向 过 程 
可 用 图 2-5 来 总 结 。 


Kongminea 
(1) IP 数 据 报 





图 2-5 主机 重 定向 过 程 


2.7 IPVv6 尖 部 结构 


IPV6 协 议 是 网 络 层 技 术 发 展 的 必然 趋势 。 它 不 仅 解 决 了 IPv4 地 址 不 
够 用 的 问题 ， 还 做 了 很 大 的 改进 。 比 如 ， 增 加 了 多 播 和 流 的 功能 ， 为 网 
络 上 多 媒体 内 容 的 质量 提供 精细 的 控制 ， 引 入 自动 配置 功能 ， 使 得 局 域 
网 管理 更 方便 ;增加 了 专门 的 网 络 安全 功能 等 。 本 市 简要 地 讨论 IPv6 尖 


部 


部 结构 ， 它 的 更 多 细节 请 参考 其 标准 文档 RFC 2460。 


2.7.1 IPv6 固 定 头 部 结构 





IPv6 头 部 由 40 字 节 的 固定 头 部 和 可 变 长 的 扩展 头 部 组 成 。 图 2-6 所 
示 是 IPv6 的 固定 头 部 结构 。 


0 15 ‘16 


4 位 eS 
8 位 通信 类 型 20 位 流标 签 
16 位 净 荷 长 度 | 8 位 跳 数 限制 


128 位 源 端 耻 地 址 





128 位 目的 端 耻 地 址 


图 2-6 IPv6 固 定 头 部 结 


4 位 版 本 号 〈version) 指定 卫 协 议 的 版 本 。 对 IPv6 来 说 ， 其 值 是 6。 


8 位 通信 类 型 〈traffic class) 指示 数据 流通 信 类 型 或 优先 级 ， 和 IPv4 
中 的 TOS 类 似 。 





20 位 流标 签 flow label) 是 IPv6 新 增加 的 字段 ， 用 于 某 些 对 连接 的 
服务 质量 有 特殊 要 求 的 通信 ， 比 如 音频 或 视频 等 实时 数据 传输 。 











16 位 净 集 长 度 (payload lengh) 指 的 是 IPv6 扩 展 头 部 和 应 用 程序 数 
据 长 度 之 和 ， 不 包括 固定 头 部 长 度 。 


8 位 下 一 个 包头 (next header) 指出 紧 跟 IPv6 固 定 头 部 后 的 包头 类 
型 ， 如 扩展 头 〈“ 如 果 有 的 话 ) 或 某 个 上 层 协议 头 《〈 比 如 TCP，UDP 或 
ICMP) 。 它 类 似 于 IPv4 头 部 中 的 协议 字段 ， 且 相同 的 取 值 有 相同 的 含 
> 


8 位 跳 数 限制 (hop limit〉 和 IPv4 中 的 TTL 含义 相同 。 





IPv6 用 128 位 (16 字 节 ) 来 表示 IP 地 址 ， 使 得 IP 地 址 的 总 量 达 到 了 
2128 个 。 所 以 有 人 说 ，“IPv6 使 得 地 球 上 的 每 粒 沙 子 都 有 一 个 IP 地 址 ”。 


32 位 表示 的 IPv4 地 址 一 般 用 点 分 十 进 制 来 表示 ， 而 IPv6 地 址 则 用 十 
六 进 制 字符 串 表 示 ， 比 如 “FE80:0000:0000:0000:1234:5678:0000:0012”。 
可 见 ，IPV6 地 址 用 “:” 分 割 成 8 组 ， 每 组 包含 2 字 节 。 但 这 种 表示 方法 过 于 
麻烦 ， 通 常 可 以 使 用 所 谓 的 零 压 缩 法 来 将 其 简写 ， 也 就 是 省 略 连续 的 、 











全 零 的 组 。 比 如 ， 上 面 的 例子 使 用 零 压 缩 法 可 表示 

为 “FE80::1234:5678:0000:0012”。 不 过 零 压 缩 法 对 一 个 IPv6 地 址 只 能 使 
用 一 次 ， 比 如 上 面 的 例子 中 ， 字 节 组 “5678” 后 面 的 全 零 组 就 不 能 再 省 
略 ， 和 否则 我 们 就 无 法 计算 每 个 “::” 之 间 省 略 了 多 少 个 全 零 组 。 


2.7.2 ”IPv6 扩 展 头 部 





可 变 长 的 扩展 头 部 使 得 IPv6 能 文 持 更 多 的 选项 ， 并 且 很 便于 将 来 的 
扩展 需要 。 它 的 长 度 可 以 是 0(， 表 示 数 据 报 没 使 用 任何 扩展 头 部 。 一 个 
数据 报 可 以 包含 多 个 扩展 头 部 ， 每 个 扩展 头 部 的 类 型 由 前 一 个 头 部 〈 回 
定 头 部 或 扩展 头 部 ) 中 的 下 一 个 报头 字段 指定 。 目 前 可 以 使 用 的 扩展 头 
部 如 表 2-3 所 示 。 








表 2-3 1Pv6 扩展 头骨 
答 义 
逐 跳 选项 头 部 ， 它 包含 每 个 路 由 器 都 必须 检查 和 处 理 的 特殊 参数 选项 
目的 选项 头 部 ， 指 定 由 最 终 目 的 节点 处 理 的 选项 
路 由 头 部 ， 指 定数 据 报 要 经 过 哪些 中 转 路 由 器 ， 功 能 类 似 于 IPv4 的 松散 源 


扩展 头 部 
Hop-by-Hop 











Destination options 


























Ee 路 由 选择 选项 和 记录 路 由 选项 

Fragment 分 片头 部 ， 处 理 分 片 和 重组 的 细节 

Authentication 认证 头 部 ， 提 供 数据 源 认 证 、 数 据 完整 性 检查 和 反 重 播 保 护 
Encapsulating Security Payload 加 密 头 部 ， 提 供 加 密 服务 








No next header 


没有 后 续 扩 展 头 部 





注意 ”IPv6 协 议 并 不 是 IPv4 协 议 的 简单 扩展 ， 而 是 完全 独立 的 协 
议 。 用 以 太 网 帧 封装 的 IPv6 数 据 报 和 IPv4 数 据 报 具 有 不 同 的 类 型 值 。 第 
1 章 提 到 ，IPv4 数 据 报 的 以 太 网 帧 封装 类 型 值 是 0x800， 而 IPv6 数 据 报 的 





以 太 网 帧 封装 类 型 值 是 0x86dd ( 见 RFC 2464) 。 


第 3 章 ”TCP 协 议 详解 


TCP 协 议 是 TCP/IP 协 议 族 中 男 一 个 重要 的 协议 。 和 和 IP 协议 相 比 ， 
TCP 协 议 更 靠近 应 用 层 ， 因 此 在 应 用 程序 中 具有 更 强 的 可 操作 性 。 一 些 
重要 的 socket 选 项 都 和 TCP 协 议 相 关 。 





本 章 从 如 下 四 方面 来 讨论 TCP 协 议 : 


DTCP 头 部 信息 。TCP 头 部 信息 出 现在 每 个 TCP 报 文 段 中 ， 用 于 指 
定 通信 的 源 端 端口 号 、 目 的 端 端口 号 ， 管 理 TCP 连 接 ， 控 制 两 个 方向 的 
数据 流 。 


DTCP 状 态 转移 过 程 。TCP 连 接 的 任意 一 端 都 是 一 个 状态 机 。 在 
TCP 连 接 从 建立 到 断 开 的 整个 过 程 中 ， 连 接 两 端的 状态 机 将 经 历 不 同 的 
状态 变迁 。 理 解 TCP 状 态 转 移 对 于 调试 网 络 应 用 程序 将 有 很 大 的 帮助 。 


DTCP 数 据 流 。 通 过 分 析 TCP 数 据 流 ， 我 们 就 可 以 从 网 络 应 用 程序 
外 部 来 了 解 应 用 层 协 议和 通信 双方 交换 的 应 用 程序 数据 。 这 一 部 分 将 讨 
论 两 种 类 型 的 TCP 数 据 流 : 交互 数据 流 和 成 块 数据 流 。TCP 数 据 流 中 有 
一 种 特殊 的 数据 ， 称 为 紧急 数据 ， 我 们 也 将 简单 讨论 之 。 


DTCP 数 据 流 的 控制 。 为 了 保证 可 靠 传输 和 提高 网 络 通信 质量 ， 内 
核 需 要 对 TCP 数 据 流 进行 控制 。 这 一 部 分 讨论 TCP 数 据 流 控制 的 两 个 方 


面 : 超时 重 传 和 拥塞 控制 。 


不 过 在 详细 讨论 TCP 协 议 之 前 ， 我 们 先 简 单 介绍 一 下 TCP 服 务 的 特 
点 ， 以 及 它 和 UDP 服务 的 区 别 。 


3.1 ”TCP 服务 的 特点 


传输 层 协议 主要 有 两 个 ，TCP 协 议和 UDP 协议 。TCP 协 议 相 对 于 
UDP 协议 的 特点 是 : 面 回 连接 、 字 节 流 和 可 靠 传输 。 





使 用 TCP 协 议 通 信 的 双方 必须 先 建立 连接 ， 然 后 才能 开始 数据 的 读 
。 双 方 都 必须 为 该 连接 分 配 必 要 的 内 核资 源 ， 以 管理 连接 的 状态 和 连 
接 上 数据 的 传输 。TCP 连 接 是 全 双 工 的 ， 即 双方 的 数据 读 写 可 以 通 
个 连接 进行 。 完 成 数据 交换 之 后 ， 通 信 双 方 都 必须 断 开 连 接 以 释放 系统 
资源 。 


TCP 协 议 的 这 种 连接 是 一 对 一 的 ， 所 以 基于 广播 和 多 播 (目标 是 多 
个 主机 地 址 ) 的 应 用 程序 不 能 使 用 TCP 服 务 。 而 无 连接 协议 UDP 则 非常 
适合 于 广播 和 多 播 。 


我 们 在 1.1 市 中 简单 介绍 过 字 节 流 服务 和 数据 报 服 务 的 区 别 。 这 种 
区 别 对 应 到 实际 编程 中 ， 则 体现 为 通信 双方 是 否 必 须 执 行 相同 次 数 的 
读 、 写 操作 (当然 ， 这 只 是 表现 形式 ) 。 当 发 送 端 应 用 程序 连续 执行 多 








次 写 操作 时 ，TCP 模 块 先 将 这 些 数 据 放 入 TCP 发 送 缓冲 区 中 。 当 ITCP 模 
块 真正 开始 发 送 数据 时 ， 发 送 缓冲 区 中 这 些 等 待 发 送 的 数据 可 能 被 封装 
成 一 个 或 多 个 TCP 报 文 段 发 出 。 因 此 ，TCP 模 块 发 送出 的 TCP 报 文 段 的 
个 数 和 应 用 程序 执行 的 写 操作 次 数 之 间 没 有 固定 的 数量 关系 。 





当 接 收 端 收 到 一 个 或 多 个 TCP 报 文 段 后 ，TCP 模 块 将 它们 携带 的 应 
用 程序 数据 按照 TCP 报 文 段 的 序号 〈 见 后 文 ) 依次 放 入 TCP 接 收 缓冲 区 
中 ， 并 通知 应 用 程序 读 取 数据 。 接 收 并 应 用 程序 可 以 一 次 性 将 TCP 接 收 
绥 冲 区 中 的 数据 全 部 读 出 ， 也 可 以 分 多 次 读 取 ， 这 取决 于 用 户 指 定 的 应 
用 程序 读 绥 冲 区 的 大 小 。 因 此 ， 应 用 程序 执行 的 读 操 作 次 数 和 TCP 模 块 
接收 到 的 TCP 报 文 段 个 数 之 间 也 没有 固定 的 数量 关系 。 





综 上 所 述 ， 发 送 端 执行 的 写 操 作 次 数 和 接收 端 执行 的 该 操 作 次 数 之 
间 没 有 任何 数量 关系 ， 这 就 是 字 节 注 的 概念 : 应 用 程序 对 数据 的 发 送 和 
接收 是 没有 边界 限制 的 。UDP 则 不 然 。 发 送 问 应 用 程序 每 执行 一 次 写 操 
作 ，UDP 模 块 就 将 其 封装 成 一 个 UDP 数 据 报 并 发 送 之 。 接 收 端 必须 及 时 
针对 每 一 个 UDP 数据 报 执行 读 操 作 〈 通 过 recvfrom 系 统 调 用 ) ， 人 否则 吏 
会 丢 包 〈 这 经 党 发 生 在 较 慢 的 服务 器 上 ) 。 并 且 ， 如 果 用 户 没有 指定 足 
够 的 应 用 程序 缓冲 区 来 读 取 UDP 数 据 ， 则 UDP 数据 将 被 截断 。 














图 3-1 和 图 3-2 显 示 了 TCP 字 节 流 服务 和 UDP 数据 报 服务 的 上 述 区 
别 。 两 图 中 省 略 了 传输 层 以 下 的 通信 细节 。 


发 送 端 接收 端 


TCP 发 送 缓冲 区 TCP 接 收 缓冲 区 


TCP 报 文 段 TCP 报 文 段 TCP 报 文 段 TCP 报 文 段 








图 3-1 TCP 字 节 流 服务 









0 | 0 | || [Ca [reevion0] 





















UDP 数据 报 UDP 数据 报 传输 层 UDP 数据 报 UDP 数据 报 











图 3-2 UDP 数据 报 服务 


TCP 传 输 是 可 靠 的 。 首 先 ，TCP 协 议 采 用 发 送 应 答 机 制 ， 即 发 送 端 
发 送 的 每 个 TCP 报 文 段 都 必须 得 到 接收 方 的 应 答 ， 才 认为 这 个 TCP 报 文 
段 传输 成 功 。 其 次 ，TCP 协 议 采 用 超时 重 传 机 制 ， 发 送 剖 在 发 送出 一 个 
TCP 报 文 段 之 后 局 动 定时 右 ， 如 果 在 定时 时 间 内 未 收 到 应 答 ， 它 将 重 发 
该 报 文 段 。 最 后 ， 因 为 TCP 报 文 段 最 终 是 以 卫 数 据 报 发 送 的 ， 而 卫 数 据 
报到 达 接 收 端 可 能 乱 序 、 重 复 ， 所 以 TCP 协 议 还 会 对 接收 到 的 TCP 报 文 
段 重 排 、 整 理 ， 再 交付 给 应 用 层 。 








UDP 协议 则 和 耳 协 议 一 样 ， 提 供 不 可 靠 服务 。 和 它们 都 需要 上 层 协 议 


来 处 理 数据 确认 和 超时 重 传 。 


3.2 TCP 头 部 结构 


TCP 头 部 信息 出 现在 每 个 TCP 报 文 段 中 ， 用 于 指定 通信 的 源 端 端 
口 ， 目 的 端 端口 ， 管 理 TCP 连 接 等 ， 本 节 详 细 介 绍 TCP 的 头 部 结构 ， 包 
括 固定 头 部 结构 和 头 部 选项 。 





3.2.1_TCP 固 定 头 部 结构 


TCP 头 部 结构 如 图 3-3 所 示 ， 其 中 的 诸多 字段 为 管理 TCP 连 接 和 控制 
数据 流 提 供 了 足够 的 信息 。 


0 Is i 31 
16 位 源 端 口号 16 位 目的 端口 号 
32 位 序号 
32 位 确认 号 
4 位 6 位 保留 | 16 位 窗口 大 
3 六 DA 小 
头 部 长 度 0 GI|KIH|ITININ 
16 位 校 验 和 16 位 紧急 指针 
1 
选项 ， 最 多 40 字 节 | 
1 





EE PS EE TE WE ET PE EE EE | 


图 。3-3 TCP 关 部 结构 


16 位 端口 号 〈port number) : 告知 主机 该 报 文 段 是 来 自 哪 里 〈 源 端 
口 )》 以 及 传 给 哪个 上 层 协议 或 应 用 程序 (目的 端口 ) 的 。 进 行 TCP 通 信 


时 ， 客 户 端 通 稼 使 用 系统 目 动 选 择 的 临时 端口 号 ， 而 服务 器 则 使 用 知名 
服务 端口 号 。1.3 节 中 提 到 过 ， 所 有 知名 服务 使 用 的 端口 号 都 定义 
在 /etc/services 文 件 中 。 


32 位 序号 〈sequence number) : 一 次 TCP 通 信 (从 TCP 连 接 建 立 到 
断 开 ) 过 程 中 某 一 个 传输 方向 上 的 字 节 流 的 每 个 字 节 的 编号 。 假 设 主机 
A 和 主机 B 进 行 TCP 通 信 ，A 发 送 给 B 的 第 一 个 TCP 报 文 段 中 ， 序 号 值 被 
系统 初始 化 为 某 个 随机 值 ISN (Initial Sequence Number， 初 始 序号 
值 ) 。 那 么 在 该 传输 方向 上 《〈 从 A 到 B) ， 后 续 的 TCP 报 文 段 中 序号 值 
将 被 系统 设置 成 ISN 加 上 该 报 文 段 所 携 融 数 据 的 第 一 个 字 节 在 整个 字 贡 
流 中 的 俩 移 。 例 如 ， 某 个 TCP 报 文 段 传送 的 数据 是 字 节 流 中 的 第 1025 一 
2048 字 节 ， 那 么 该 报 文 段 的 序号 值 就 是 ISN+1025。 另 外 一 个 传输 方 辐 
《从 B 到 A) 的 TCP 报 文 段 的 序号 值 也 具有 相同 的 含义 。 

















32 位 确认 号 (acknowledgement number) : 用 作对 另 一 方 发 送 来 的 
TCP 报 文 段 的 响应 。 其 值 是 收 到 的 TCP 报 文 段 的 序号 值 加 1。 假 设 主 机 A 
和 主机 B 进 行 TCP 通 信 ， 那 么 A 发 送出 的 TCP 报 文 段 不 仅 携带 自己 的 序 
号 ， 而 且 包 含 对 B 发 送 来 的 TCP 报 文 段 的 确认 号 。 反 之 ，B 发 送出 的 TCP 
报 文 段 也 同时 携带 自己 的 序号 和 对 A 发 送 来 的 报 文 段 的 确认 号 。 





4 位 头 部 长 度 (header length) : 标识 该 TCP 头 部 有 多 少 个 32bit 字 


(4 字 节 ) 。 因 为 4 位 最 大 能 表示 15， 所 以 TCP 头 部 最 长 是 60 字 节 。 











6 位 标志 位 包含 如 下 几 项 : 
QURG 标 志 ， 表 示 紧 急 指针 (urgent pointer) 是 人 否 有 效 。 


DACK 标 志 ， 表 示人 确认 号 是 否 有 效 。 我 们 称 携带 ACK 标 志 的 TCP 报 
文 段 为 确认 报 文 段 。 


口 PSH 标 志 ， 提 示 接 收 端 应 用 程序 应 该 立即 从 TCP 接 收 缓冲 区 中 读 
走 数据 ， 为 接收 后 续 数 据 腾 出 空间 〈 如 果 应 用 程序 不 将 接收 到 的 数据 读 
走 ， 它 们 就 会 一 直 停 留 在 TCP 接 收 缓冲 区 中 ) 。 











DRST 标 志 ， 表 示 要 求 对 方 重新 建立 连接 。 我 们 称 携带 RST 标 志 的 
TCP 报 文 段 为 复位 报 文 段 。 


DSYN 标 志 ， 表 示 请 求 建立 一 个 连接 。 我 们 称 携带 SYN 标 志 的 TCP 
报 文 段 为 同步 报 文 段 。 





DFIN 标 志 ， 表 示 通 知 对 方 本 端 要 关闭 连接 了 。 我 们 称 携带 FIN 标 
志 的 TCP 报 文 段 为 结束 报 文 段 。 


16 位 窗口 大 小 (window size) : 是 TCP 流 量 控制 的 一 个 手段 。 这 里 
说 的 窗口 ， 指 的 是 接收 通告 窗口 (Receiver Window，RWND) 。 它 告 
诉 对 方 本 端的 TCP 接 收 缓冲 区 还 能 容纳 多 少 字 节 的 数据 ， 这 样 对 方 就 可 
以 控制 发 送 数据 的 速度 。 








16 位 校 验 和 〈TCP checksum) : 由 发 送 端 填充 ， 接 收 端 对 TCP 报 文 
段 执行 CRC 算 法 以 检验 TCP 报 文 段 在 传输 过 程 中 是 否 损坏 。 注 意 ， 这 个 
校 验 不 仅 包 括 TCP 头 部 ， 也 包括 数据 部 分 。 这 也 是 TCP 可 靠 传输 的 一 个 
重要 保障 。 





16 位 紧急 指针 (urgent pointer) : 是 一 个 正 的 偏 移 量 。 它 和 序号 字 
段 的 值 相 加 表示 最 后 一 个 紧急 数据 的 下 一 字 节 的 序号 。 因 此 ， 确 切 地 
说 ， 这 个 字段 是 紧急 指针 相对 当前 序号 的 偏 移 ， 不 妨 称 之 为 紧急 偏 移 。 
TCP 的 紧急 指针 是 发 送 端 向 接收 端 发 送 紧急 数据 的 方法 。 我 们 将 在 后 面 
讨论 TCP 紧 急 数据 。 








3.2.2”TCP 头 部 选项 


TCP 头 部 的 最 后 一 个 选项 字段 (options〉 是 可 变 长 的 可 选 信 息 。 这 
部 分 最 多 包含 40 字 节 ， 因 为 TCP 头 部 最 长 是 60 字 节 【〈 其 中 还 包含 前 面 讨 


论 的 20 字 节 的 固定 部 分 ) 。 典 型 的 TCP 头 部 选项 结构 如 图 3-4 所 示 。 


kind〈1 字 节 ) | length (1 字 节 ) info 〈7 字 节 ) 


图 3-4 TCP 头 部 选项 的 一 般 结构 








选项 的 第 一 个 字段 kind 说 明 选 项 的 类 型 。 有 的 TCP 选 项 没有 后 面 两 
个 字段 ， 仅 包 合 1 字 节 的 kind 字 段 。 第 二 个 字段 langh《〈 如 果 有 的 话 ) 指 


定 该 选项 的 总 长 度 ， 该 长 度 包括 kind 字 段 和 length 字 段 占据 的 2 字 节 。 第 
三 个 字段 info (如 果 有 的 话 〉 是 选项 的 具体 信息 。 和 常见 的 TCP 选 项 有 7 
种 ， 如 图 3-5 所 示 。 


length=4 最 大 segment 长 度 (2 字 节 ) 


















lcind=5 length 第 1 块 第 1 块 
=N*8+2 左边 沿 右边 沿 
length=10 | 时 间 稚 值 (4 字 节 ) 






第 N 块 第 N 块 
左边 沿 右边 沿 


时 间 戳 回 显 应 答 〈4 字 节 ) 





图 3-5 7 种 TCP 选 项 


kind=0 是 选项 表 结 束 选 项 。 


kind=1 是 空 操 作 (nop) 选项 ， 没 有 特殊 含义 ， 一 般 用 于 将 TCP 选 项 
的 总 长 度 填充 为 4 字 节 的 整数 倍 。 





kind=2 是 最 大 报 文 段 长 度 选项 。TCP 连 接 初 始 化 时 ， 通 信 双 方 使 用 
该 选项 来 协商 最 大 报 文 段 长 度 (Max Segment Size，MSS) 。TCP 模 块 
通常 将 MSS 设 置 为 (MTU-40) 字 节 《〈 减 掉 的 这 40 字 节 包 括 20 字 贡 的 
TCP 头 部 和 20 字 节 的 卫 头 部 ) 。 这 样 携带 TCP 报 文 段 的 了 数据 报 的 长 度 


就 不 会 超过 MTU 〈 假 设 TCP 头 部 和 了 P 头 部 都 不 包含 选项 字段 ， 并 且 这 也 
是 一 般 情 况 ) ， 从 而 避免 本 机 发 生 IP 分 片 。 对 以 太 网 而 言 ，MSS 值 是 
1460 (1500-40) 字 节 。 


kind=3 是 窗口 扩大 因子 选项 。TCP 连 接 初始 化 时 ， 通 信 双 方 使 用 该 
选项 来 协商 接收 通告 窗口 的 扩大 因子 。 在 TCP 的 头 部 中 ， 接 收 通 告 窗 口 
大 小 是 用 16 位 表示 的 ， 故 最 大 为 65 535 字 节 ， 但 实际 上 TCP 模 块 允许 的 
接收 通告 窗口 大 小 远 不 止 这 个 数 〈 为 了 提高 TCP 通 信 的 吞吐 量 ) 。 窗 口 
扩大 因子 解决 了 这 个 问题 。 假 设 TCP 头 部 中 的 接收 通告 窗口 大 小 是 N， 
窗口 扩大 因子 〈 移 位 数 ) 是 M， 那 么 TCP 报 文 段 的 实际 接收 通告 窗口 大 
小 是 N 乘 2M ， 或 者 说 N 左 移 M 位 。 注 意 ，M 的 取 值 范围 是 0 一 14。 我 们 可 
以 通过 修改 /proc/sys/net/ipv4/tcp_window_scaling 内 核 变量 来 启用 或 关闭 
窗口 扩大 因子 选项 。 








和 MSS 选 项 一 样 ， 窗 口 扩 大 因子 选项 只 能 出 现在 同步 报 文 段 中 ， 否 
则 将 被 忽略 。 但 同步 报 文 段 本 里 不 执行 窗口 扩大 操作 ， 即 同步 报 文 段 头 
部 的 接收 通告 窗口 大 小 就 是 该 TCP 报 文 段 的 实际 接收 通告 窗口 大 小 。 当 
连接 建立 好 之 后 ， 每 个 数据 传输 方向 的 窗口 扩大 因子 就 固定 不 变 了 。 关 
于 窗口 扩大 因子 选项 的 细节 ， 可 参考 标准 文档 RFC 1323。 








kind=4 是 选择 性 确认 (Selective Acknowledgment，SACK) 选项 。 
TCP 通 信 时 ， 如 果菜 个 TCP 报 文 段 丢 失 ， 则 TCP 模 块 会 重 传 最 后 被 确认 
的 TCP 报 文 段 后 续 的 所 有 报 文 段 ， 这 样 原 先 已 经 正确 传输 的 TCP 报 文 段 


也 可 能 重复 发 送 ， 从 而 降低 了 TCP 性 能 。SACK 技 术 正 是 为 改善 这 种 情 
况 而 产生 的 ， 它 使 TCP 模 块 只 重新 发 送 丢 失 的 TCP 报 文 段 ， 不 用 发 送 所 
有 未 被 确认 的 TCP 报 文 段 。 选 择 性 确认 选项 用 在 连接 初始 化 时 ， 表 示 是 
否 文 持 SACK 技 术 。 我 们 可 以 通过 修改 /proc/sys/netipv4/tcp_sack 内 核 变 
量 来 局 用 或 关闭 选择 性 确认 选项 。 


kind=5 是 SACK 实 际 工 作 的 选项 。 该 选项 的 参数 告诉 发 送 方 本 端 已 
经 收 到 并 缓存 的 不 连续 的 数据 块 ， 从 而 让 发 送 端 可 以 据 此 检查 并 重 发 丢 
失 的 数据 块 。 每 个 块 边沿 〈edge of block) 参数 包含 一 个 4 字 节 的 序号 。 
其 中 块 左边 沿 表示 不 连续 块 的 第 一 个 数据 的 序号 ， 而 块 右 边沿 则 表示 不 
连续 块 的 最 后 一 个 数据 的 序号 的 下 一 个 序号 。 这 样 一 对 参数 〈 块 左边 沿 
和 块 右边 沿 ) 之 间 的 数据 是 没有 收 到 的 。 因 为 一 个 块 信息 占用 8 字 节 ， 
所 以 TCP 头 部 选项 中 实际 上 最 多 可 以 包含 4 个 这 样 的 不 连续 数据 块 〈 考 
虑 选项 类 型 和 长 度 占用 的 2 字 节 ) 。 


kind=8 是 时 间 戳 选项。 该 选项 提供 了 较为 准确 的 计算 通信 双方 之 间 
的 回路 时 间 (Round Trip Time，RTT) 的 方法 ， 从 而 为 TCP 流 量 控制 提 
供 重要 信息 。 我 们 可 以 通过 修改 /proc/sys/net/ipv4/tcp_timestamps 内 核 变 
量 来 启用 或 关闭 时 间 惟 选项 。 


3.2.3 ”使 用 tcpdump 观 察 TCP 头 部 信息 


在 2.3 市 中 ， 我 们 利用 tcpdump 抓 取 了 一 个 数据 包 并 分 析 了 其 中 的 IP 
头 部 信息 ， 本 市 分 析 其 中 与 TCP 协 议 相 关 的 部 分 (后 面 的 分 析 中 ， 我 们 
将 所 有 tcpdump 抓 取 到 的 数据 包 都 称 为 TCP 报 文 段 ， 因 为 TCP 报 文 段 既是 
数据 包 的 主要 和 内容， 也 是 我 们 主要 讨论 的 对 象 ) 。 为 了 方便 阅读 ， 先 将 
该 TCP 报 文 段 的 内 容 复 制 于 代码 清单 3-1 中 。 





代码 清单 3-1 用 tcpdump 抓 取 数 据 包 








TE 本 及 人 提亲 34997455309, win 

327927options [mss 16396,sackOK,TS val 40781017 ecr 0,nop,wscale 

6],length 0 
0x0000:4510 003c a5da 4000 4006 96cf 7f00 0001 
0x0010:7f00 0001 a295 0017 d099 e103 0000 0000 
0x0020:a002 8018 fe30 0000 0204 400c 0402 080a 
0x0030:026e 44d9 0000 0000 0103 0306 


























tcpdump 输 出 Flags[S]， 表 示 该 TCP 报 文 段 包含 SYN 标 志 ， 因 此 它 是 
一 个 同步 报 文 段 。 如 果 TCP 报 文 段 包含 其 他 标志 ， 则 tcpdump 也 会 将 该 
标志 的 首 字母 显示 在 “Flags” 后 的 方 括号 中 。 





sed 是 序号 值 。 因 为 该 同步 报 文 段 是 从 127.0.0.1.41621“〈 客 户 端 了 地 
址 和 端口 号 ) 到 127.0.0.1.23《〈 服 务 器 耳 地 址 和 端口 号 ) 这 个 传输 方向 上 
的 第 一 个 TCP 报 文 段 ， 所 以 这 个 序号 值 也 就 是 此 次 通信 过 程 中 该 传输 方 
向 的 ISN 值 。 并 且 ， 因 为 这 是 整个 通信 过 程 中 的 第 一 个 TCP 报 文 段 ， 所 
以 它 没有 针对 对 方 发 送 来 的 TCP 报 文 段 的 确认 值 〈 尚 未 收 到 任何 对 方 发 
送 来 的 TCP 报 文 段 ) 。 








win 是 接收 通告 窗口 的 大 小 。 因 为 这 是 一 个 同步 报 文 段 ， 所 以 win 值 
反映 的 是 实际 的 接收 通告 窗口 大 小 。 


options 是 TCP 选 项 ， 其 具体 内 容 列 在 方 括号 中 。mss 是 发 送 端 〈 客 
户 端 ) 通告 的 最 大 报 文 段 长 度 。 通 过 ifconfig 命 令 查 看 回路 接口 的 MTU 
为 16436 字 市 ， 因 此 可 以 预想 到 TCP 报 文 段 的 MSS 为 16396 (16436-40) 

。SackOK 表 示 发 送 并 支持 并 同音 使 用 SACK 选 项 。TS val 是 发 送 端 
的 时 间 惟 。ecr 是 时 间 戳 回 显 应 答 。 因 为 这 是 一 次 TCP 通 信 的 第 一 个 TCP 
报 文 段 ， 所 以 它 针 对 对 方 的 时 间 戳 的 应 答 为 0〈 尚 未 收 到 对 方 的 时 间 
惟 ) 。 紧 接着 的 nop 是 一 个 空 操 作 选 项 。wscale 指 出 发 送 端 使 用 的 窗口 
扩大 因子 为 6。 











接 下 来 我 们 分 析 tcpdump 输 出 的 字 市 码 中 TCP 头 部 对 应 的 信息 ， 它 
从 第 21 字 市 开始 ， 如 表 3-1 所 示 。 








表 3-1 TCP 头 部 
十 六 进 制 数 十 进 制 表示 "" TCP 头 部 信息 
0xa295 41621 源 端口 号 
0x0017 23 目的 端口 号 
Oxd099e103 3499745539 序号 
0x00000000 0 确认 号 
Oxa 10 TCP 头 部 长 度 为 10 个 32 位 (40 字 节 ) 
0x002 设置 了 SYN 标志 
0x8018 32792 接收 通告 窗口 大 小 
0xfe30 头 部 校 验 和 
0x0000 没 设置 URG 标志 ， 所 以 紧急 指针 值 无 意义 
0x0204 最 大 报 文 段 长 度 选项 的 kind 值 和 length 值 
0x400c 16396 最 大 报 文 段 长 度 
0x0402 允许 SACK 选项 
0x080a 时 间 蕉 选项 的 kind 值 和 length 值 
0x026e44d9 40781017 时 间 戳 
0x00000000 0 回 显 应 答 时 间 戳 
0x01 空 操作 选项 
0x0303 窗口 扩大 因子 选项 的 kind 值 和 length 值 
0x06 6 窗口 扩大 因子 为 6 





从 表 3-1 中 可 见 ，TCP 报 文 段 头 部 的 二 进 制 码 和 tcpdump 输 出 的 TCP 
报 文 段 描述 信息 完全 对 应 。 在 后 面 的 tcpdump 输 出 中 ， 我 们 将 省 略 大 部 
分 TCP 头 部 信息 ， 仅 显示 序号 、 确 认 号 、 窗 口 大 小 以 及 标志 位 等 


相关 的 字段 。 











1] 此 列 中 的 空格 表示 我 们 并 不 关心 相应 字段 的 十 进 制 值 


与 主题 


3.3 TCP 连接 的 建立 和 关闭 
本 节 我 们 讨论 建立 和 关闭 TCP 连 接 的 过 程 。 
3.3.1 ”使 用 tcpdump 观 察 TCP 连 接 的 建立 和 关闭 


首先 从 ernest-laptop 上 执行 telnet 命 令 登 录 Kongming20 的 80 端 口 ， 然 
后 抓 取 这 一 过 程 中 客户 端 和 服务 器 交换 的 TCP 报 文 段 。 具 体操 作 过 程 如 
下 : 








$sudo tcpdump-i eth0-nt'(src 192.168.1.109 and dst 
192.168.1.108)or (src 192 .168.1.108 and dst 192 .168.1.109)， 
Stelnet 192.168.1.109 80 
PEYLNG L9268 LL00. a 
Connected to 192.168.1.109. 
Escape character is'^]'. 
^] 〈 回 车 ) # 输 入 ctrl+] 并 回 车 
telnet> 之 cuit 《〈 回 车 ) 
Connection closed. 






































当 执 行 telnet 命 令 并 在 两 台 通 信 主 机 之 间 建 立 TCP 连 接 后 (telnet 输 
出 “Connected to 192.168.1.109”) ， 输 入 Ctrl+] 以 调 出 telnet 程 序 的 命令 提 
示 符 ， 然 后 在 telnet 命 令 提示 符 后 输入 quit 以 退出 telnet 客 户 端 程序 ， 从 而 
结束 TCP 连 接 。 整 个 过 程 中 《从 连接 建立 到 结束 ) ，tcpdump 输 出 的 内 
容 如 代码 清单 3-2 所 示 。 


代码 清单 3-2 建立 和 关闭 TCP 连 接 的 过 程 













































































时 加 和 了 于 


0 有 


309380: 








V8 6087L: 











lolib T92108, 1.108 .60871 1199206468.1.109.803 
535734930,win 5840,length 0 

251P 192,168,1 .109.80>192.168,.1.108.,.60871: 
2159701207,ack 535734931v win 5792,1length 0 

B31P'1902.168,.1,.108.608712>192.168. 
92,length 0 

4.IP 192.168.1.108.60871 二 192.168.1] 
1l,win 92,1length 0 

5.IP 192.168.1.109.80 二 192.168.1] 
91,length 0 

OLB L92168: .L0980. L192. L680 
2,win 91,1length 0 

7.IP 192.168.1.108.60871 二 192.168.1.109.80: 
92,length 0 








lags 
lags 
lags 


lags 


ags 


lags 


lags 


[Sl,seq 
[S.],seq 
[.],ack 1l,win 
[F.],seq 1l,ack 
[.],ack 2,win 


[F.],seq 1l,ack 





[.],ack 2,win 





因为 整个 过 程 并 没有 发 生 应 用 层 数据 的 交换 ， 所 以 TCP 报 文 段 的 数 
据 部 分 的 长 度 〈lengh) 总 是 0(。 为 了 更 清楚 地 表示 建立 和 关闭 TCP 连 接 
的 整个 过 程 ， 我 们 将 tcpdump 输 出 的 内 容 绘 制 成 图 3-6 所 示 的 时 序 图 。 


ernest-laptop Kongming20 


(192.168.1.108.60871) (192.168.1.109.80) 
报 文 段 1 Seq 535734930 (SYN) 
seq 2159701207 (SYN) 报 文 段 2 
ack 535734931 
报 文 段 3 ack 2159701208 
Seq 5 
报 文 段 4 4 335734931, ack 2159701208 (FIN) 
报 文 段 5 
(FIN) 
sed 2159701208s aex 535734932 报 文 段 6 


报 文 段 7 ack 2159701209 





图 。 3-6 ”TCP 连接 的 建立 和 关闭 时 序 图 


第 1 个 TCP 报 文 段 包含 SYN 标 志 ， 因 此 它 是 一 个 同步 报 文 段 ， 即 
ernest-laptop (客户 端 ) 向 Kongming20( 服 务 器 〉 发 起 连接 请 求 。 同 
时 ， 该 同步 报 文 段 包含 一 个 ISN 值 为 535734930 的 序号 。 第 2 个 TCP 报 文 
段 也 是 同步 报 文 段 ， 表 示 Kongming20 同 意 与 ernest-laptop 建 立 连 接 。 同 
时 它 发 送 自己 的 ISN 值 为 2159701207 的 序号 ， 并 对 第 1 个 同步 报 文 段 进 行 
确认 。 确 认 值 是 535734931， 即 第 1 个 同步 报 文 段 的 序号 值 加 1。 前 文 说 
过 ， 序 号 值 是 用 来 标识 TCP 数 据 流 中 的 每 一 字 节 的 。 但 同步 报 文 段 比较 








特殊 ， 即 使 它 并 没有 携带 任何 应 用 程序 数据 ， 它 也 要 占用 一 个 序号 值 。 
第 3 个 TCP 报 文 段 是 ernest-laptop 对 第 2 个 同步 报 文 段 的 确认 。 至 此 ，TCP 
连接 就 建立 起 来 了 。 建 立 TCP 连 接 的 这 3 个 步骤 被 称 为 TCP 三 次 握手 。 





从 第 3 个 TCP 报 文 段 开始 ，tcpdump 输 出 的 序号 值 和 确认 值 都 是 相对 
初始 ISN 值 的 偏 移 。 当 然 ， 我 们 可 以 开启 tcpdump 的 -S 选 项 来 选择 打印 序 
号 的 绝对 值 。 


后 面 4 个 TCP 报 文 段 是 关闭 连接 的 过 程 。 第 4 个 TCP 报 文 段 包 含 FIN 
标志 ， 因 此 它 是 一 个 结束 报 文 段 ， 即 ernest-laptop 要 求 关闭 连接 。 结 束 
报 文 段 和 同步 报 文 段 一 样 ， 也 要 占用 一 个 序号 值 。Kongming20 用 TCP 报 
文 段 5 来 确认 该 结束 报 文 段 。 紧 接着 Kongming20 发 送 自己 的 结束 报 文 段 
6，ernest-laptop 则 用 TCP 报 文 段 7 给 予 确认 。 实 际 上 ， 仅 用 于 确认 目的 的 
确认 报 文 段 5 是 可 以 省 略 的 ， 因 为 结束 报 文 段 6 也 携带 了 该 确认 信息 。 确 
认 报 文 段 5 是 否 出 现在 连接 断 开 的 过 程 中 ， 取 决 于 TCP 的 延迟 确认 特 
性 。 延 迟 确 认 将 在 后 面 讨论 。 


在 连接 的 关闭 过 程 中 ， 因 为 ernest-laptop 先 发 送 结束 报 文 段 (telnet 
客户 端 程序 主动 退出 ) ， 故 称 ernest-laptop 执 行 主 动 关闭 ， 而 称 
Kongming20 执 行 被 动 关闭 。 





一 般 而 言 ，TCP 连 接 是 由 客户 并 友 起 ， 并 通过 三 次 握手 建立 (特殊 
情况 是 所 谓 同时 打开 趾 ) 的 。ITCP 连 接 的 关闭 过 程 相对 复杂 一 些 。 可 能 


是 客户 并 执行 主动 关闭 ， 比 如 前 面 的 例子 ， 也 可 能 是 服务 器 执行 主动 天 
闭 ， 比 如 服务 器 程序 被 中 靳 而 强制 关闭 连接 ; 能 是 同时 关闭 (和 同 
时 打开 一 样 ， 非 常 少见 ) 。 





.3.2，. 半 天 财 状态 


TCP 连 接 是 全 双 工 的 ， 所 以 它 允 许 两 个 方向 的 数据 传输 被 独立 关 
闭 。 换 言 之 ， 通 信 的 一 端 可 以 发 送 结束 报 文 段 给 对 方 ， 告 诉 它 本 端 已 经 
完成 了 数据 的 发 送 ， 但 允许 继续 接收 来 自 对 方 的 数据 ， 直 到 对 方 也 发 送 
结束 报 文 段 以 关闭 连接 。TCP 连 接 的 这 种 状态 称 为 半 关 闭 (half close) 
状态 ， 如 图 3-7 所 示 。 











们 将 在 后 续 章 节 讨 论 它 。 


客户 庙 

客户 端 执 
行 半 关闭 
进入 半 FIN 的 确认 


read 返 回 >0 


据 的 确认 


read 返 回 0 
FIN 的 确认 


图 3-7 半 关 闭 状 态 





服务 器 


read 返 回 0 


write 


服务 器 
关闭 连接 


请 注意 ， 在 图 3-7 中 ， 服 务 器 和 客户 端 应 用 程序 判断 对 方 是 否 已 经 
关闭 连接 的 方法 是 : read 系 统 调用 返回 0《 收 到 结束 报 文 段 ) 。 当 然 ， 
Linux 还 提供 其 他 检测 连接 是 否 被 对 方 天 团 的 方法 ， 这 将 在 后 续 章 市 讨 


论 。 


socket 网 络 编程 接口 通过 shutdown 函 数 提供 了 对 半 关 闭 的 支持 ， 我 


x 
但 是 使 用 半 关 闭 的 应 用 程序 很 少见 。 


里 强调 一 下 ， 虽 然 我 们 介绍 了 半 关 闭 状 态 ， 


3.3.3 ”连接 超时 


前 面 我 们 讨论 的 是 很 快 建立 连接 的 情况 。 如 果 客 户 问 访问 一 个 距离 
它 很 远 的 服务 器 ， 或 者 由 于 网 络 蒙 忙 ， 导 致 服务 器 对 于 客户 站 发 送出 的 
同步 报 文 段 没有 应 答 ， 此 时 客户 端 程序 将 产生 什么 样 的 行为 呢 ?” 显 然 ， 
对 于 提供 可 徘 服务 的 TCP 来 说 ， 它 必然 是 先进 行 重 连 (可 能 执行 多 
次 ) ， 如 果 重 连 仍然 无 效 ， 则 通知 应 用 程序 连接 超时 。 





为 了 观察 连接 超时 ， 我 们 模拟 一 个 蚂 忙 的 服务 此 环境 ， 在 ernest- 
laptop 上 执行 下 面 的 操作 : 





$sudo iptables-F 
$sudo iptables- NPUT-p tcp--syn-i eth0-j DROP 


























iptable 命 令 用 于 过 渡 数 据 包 ， 这 里 我 们 利用 它 来 丢弃 所 有 接收 到 的 
连接 请 求 〈( 丢 弃 所 有 同步 报 文 段 ， 这 样 客 户 端 就 无 法 得 到 任何 确认 报 文 
段 ) 。 


接 下 来 从 Kongming20 上 执行 telnet 命 令 登 录 到 ernest-laptop， 并 用 
tcpdump 抓 取 这 个 过 程 中 双方 交换 的 TCP 报 文 段 。 具 体操 作 如 下 : 








$sudo tcpdump-n-i eth0 port 23# 仅 抓 取 telnet 客 户 端 和 服务 器 交换 的 数据 包 
$date;telnet 192.168.1.108;date# 在 telnet 命 令 前 后 都 执行 date 命 令 ， 以 计算 

超时 时 间 
Mom Yun 1. 21:23395 CST 2012 
TrYLNG L92168 ll108. 2. 
telnet:connect to address 192.168.1.108:Connection timed out 
Mon Jun 11 21:24:38 CST 2012 























从 两 次 date 命 令 的 输出 来 看 ，Kongming20 建 立 TCP 连 接 的 超时 时 间 
是 63s。 本 次 tcpdump 的 输出 如 代码 清单 3-3 所 示 。 


代码 清单 3-3 ”TCP 超时 重 连 






















































































L223 BI OL ZLdG. LE L9268s Ls L0939385.2> 

92.168 08.telnet:Flags[S],seq 1355982096, length 0 
2 23° 36%0l3146. 1B 192.168.. 1 109539385> 

92.168.1.108.telnet:Flags[S],seq 1355982096,1length 0 
3 ln 2338.06L7279 TP 19092168 .12 109539385> 

92.168.1.108.telnet:Flags[S],seq 1355982096,1length 0 
4.21:23:42.625140 IP 192.168.1.109.39385>> 

92.168.1.108.telnet:Flags[S],seq 1355982096,1length 0 
SZlr23so00 01344 TE T1925 168,. 1 109393852 

92.168.1.108.telnet:Flags[S],seq 1355982096,1length 0 
6G.2L7245063673331 IP 192%.168,.1.109.,39385 庆 

92.168 08.telnet:Flags[S],seq 1355982096,1length 0 















































这 次 抓 包 我 们 保留 了 tcpdump 输 出 的 时 间 惟 《不 使 用 其 -t 选 项 ) ， 以 
便 推 理 Linux 的 超时 重 连 策略 。 


我 们 一 共 抓 取 到 6 个 TCP 报 文 段 ， 它 们 都 是 同步 报 文 段 ， 并 且 具 有 
相同 的 序号 值 ， 这 说 明 后 面 5 个 同步 报 文 段 都 是 超时 重 连 报 文 段 。 观 察 
这 些 TCP 报 文 段 锐 发 送 的 时 间 间 隔 ， 它 们 分 别 为 1s、2s、4s、8s 和 
16s《〈 由 于 定时 器 精度 的 问题 ， 这 些 时 间 间 隔 都 有 一 定 偏差 ) ， 可 以 推 
吴 最 后 一 个 TCP 报 文 段 的 超时 时 间 是 32s (63s-16s-8s-4s-2s-1s) 。 
此 ，TCP 模 块 一 共 执 行 了 5 次 重 连 操作 ， 这 是 
由 /proc/sys/net/ipv4/tcp_syn_retries 内 核 变 量 所 定义 的 。 每 次 重 连 的 超时 


时 间 都 增加 一 倍 。 在 5 次 重 连 均 失败 的 情况 下 ，TCP 模 块 放弃 连接 并 通 
知 应 用 程序 。 





在 应 用 程序 中 ， 我 们 可 以 修改 连接 超时 时 间 ， 有 具体 方法 将 在 本 书后 


续 章 中 进行 介绍 。 


3.4 ”TCP 状态 转移 


TCP 和 连接 的 任意 一 端 在 任 一 时 刻 都 处 于 某 种 状态 ， 当 前 状态 可 以 通 
过 netstat 命 令 〈 见 第 17 章 ) 查看。 本 市 我 们 要 讨论 的 是 TCP 连 接 从 建 并 
到 关闭 的 整个 过 程 中 通信 两 问 状 态 的 变化 。 图 3-8 是 完整 的 状态 转移 
图 ， 它 描绘 了 所 有 的 TCP 状 态 以 及 可 能 的 状态 转换 。 





程序 被 动 打开 ! 


1 
FIN! 
CLOSE WIT) ->( CLOSE_WAIT 
ACK, 
LAST ACK  )--1-~---" > 
| 





图 3-8 了 TCP 状态 转移 过 程 


图 3-8 中 的 粗 虚 线 表 示 典 型 的 服务 器 并 连接 的 状态 转移 ， 粗 实 线 表 
典型 的 客户 端 连接 的 状态 转移 。CLOSED 是 一 个 假想 的 起 始点 ， 并 不 
一 个 实际 的 状态 。 


3.4.1 ITCP 状 态 转移 总 图 


我 们 先 讨论 服务 器 的 典型 状态 转移 过 程 ， 此 时 我 们 说 的 连接 状态 都 
古 指 该 连接 的 服务 需 端 的 状态 。 


服务 器 通过 listen 系 统 调用 〈 见 第 5 章 ) 进入 LISTEN 状 态 ， 被 动 等 待 
客户 端 连接 ， 因 此 执行 的 是 所 谓 的 被 动 打 开 。 服 务 嚣 一旦 监听 到 某 个 连 
接 请 求 〈 收 到 同步 报 文 段 ) ， 就 将 该 连接 放 入 内 核 等 待 队列 中 ， 并 向 客 
户 疹 发 送 市 SYN 标 志 的 确认 报 文 段 。 此 时 该 连接 处 于 SYN_RCVD 状 

。 如 果 服 务 恬 成 功 地 接收 到 客户 端 发 送 回 的 确认 报 文 段 ， 则 该 连接 转 
移 到 ESTABLISHED 状 态 。ESTABLISHED 状 态 是 连接 双方 能 够 进行 双 
问 数 据 传 输 的 状态 。 





当 客 户 端 主动 关闭 连接 时 (通过 dlose 或 shutdown 系 统 调 用 向 服务 器 
发 送 结束 报 文 段 ，”， 服 务 器 通过 返回 确认 报 文 段 使 连接 进入 
CLOSE_WAIT 状 态 。 这 个 状态 的 含义 很 明确 : 等 等 服务 器 应 用 程序 关 
闭 连接 。 通 常 ， 服 务 器 检测 到 客户 端 关闭 连接 后 ， 也 会 立即 给 客户 端 发 
送 一 个 结束 报 文 段 来 关闭 连接 。 这 将 使 连接 转移 到 LAST_ACK 状 态 ， 以 
等 待 客 户 端 对 结束 报 文 段 的 最 后 一 次 确认 。 一 旦 确认 完成 ， 连 接 就 彻底 
大 朵 了 5 





下 面 讨论 客户 端的 典型 状态 转移 过 程 ， 此 时 我 们 说 的 连接 状态 都 是 
指 该 连接 的 客户 端的 状态 。 





客户 端 通过 connect 系 统 调用 〈 见 第 5 章 ) 主动 与 服务 器 建立 连接 。 


connect 系 统 调用 首先 给 服务 器 发 送 一 个 同步 报 文 段 ， 使 连接 转移 到 
SYN_SENT 状 态 。 此 后 ，connect 系 统 调 用 可 能 因为 如 下 两 个 原因 失败 返 
加 | : 





口 如 果 connect 连 接 的 目标 端口 不 存在 《未 被 任何 进程 监听 ) ， 或 者 
该 端口 仍 被 处 于 TIME_WAIT 状 态 的 连接 所 占用 〈 见 后 文 ) ， 则 服务 器 
将 给 客户 端 发 送 一 个 复位 报 文 段 ，connect 调 用 失败 。 








口 如 果 目 标 端 口 存 在 ， 但 connect 在 超时 时 间 内 未 收 到 服务 器 的 确认 
报 文 段 ， 则 connect 调 用 失败 。 


connect 调 用 失败 将 使 连接 立即 返回 到 初始 的 CLOSED 状 态 。 如 果 客 
户 端 成 功 收 到 服务 器 的 同步 报 文 段 和 确认 ， 则 connect 调 用 成 功 返 回 ， 连 
接 转 移 至 FSTABLISHED 状 态 。 


当 客 户 端 执行 主动 关闭 时 ， 它 将 向 服务 器 发 送 一 个 结束 报 文 段 ， 同 
时 连接 进入 FIN_WAIT_1 状 态 。 若 此 时 客户 端 收 到 服务 器 专门 用 于 确认 
目的 的 确认 报 文 段 〈 比 如 图 3-6 中 的 TCP 报 文 段 5) ， 则 连接 转移 至 
FIN_WAIT_2 状 态 。 当 客户 端 处 于 FIN_WAIT_2 状 态 时 ， 服 务 器 处 于 
CLOSE_WAIT 状 态 ， 这 一 对 状态 是 可 能 发 生 半 关 闭 的 状态 。 此 时 如 果 
服务 器 也 关闭 连接 (发 送 结 束 报 文 段 ，”， 则 客户 端 将 给 予 确认 并 进入 
TIME_WAIT 状 态 。 关 于 TIME_WAIT 状 态 的 含义 ， 我 们 将 在 下 一 节 讨 


论 。 


图 3-8 还 给 出 了 客户 端 从 FIN_WAIT_1 状 态 直接 进入 TIME_WAIT 状 
态 的 一 条 线路 (不 经 过 FIN_WAIT_2 状 态 ) ， 前 提 是 处 于 FIN_WAIT 1 
状态 的 服务 器 直接 收 到 带 确认 信息 的 结束 报 文 段 (而 不 是 先 收 到 确认 报 
文 段 ， 再 收 到 结束 报 文 段 ) 。 这 种 情况 对 应 于 图 3-6 中 的 服务 器 不 发 送 
TCP 报 文 段 5。 


前 面 说 过 ， 处 于 FIN_WAIT_2 状 态 的 客户 端 需要 等 待 服务 器 发 送 结 
束 报 文 段 ， 才 能 转移 至 TIME_WAIT 状 态 ， 和 否则 它 将 一 直 停留 在 这 个 状 
态 。 如 果 不 是 为 了 在 半 关 闭 状态 下 继续 接收 数据 ， 连 接 长 时 间 地 停留 在 
FIN_WAIT_ 2 状态 并 无 益处 。 连 接 停留 在 FIN_WAIT_2 状 态 的 情况 可 能 
发 生 在 : 客户 端 执行 半 关 闭 后 ， 未 等 服务 器 关闭 连接 就 强行 退出 了 。 此 
时 客户 端 连接 由 内 核 来 接管 ， 可 称 之 为 孤儿 连接 (和 孤儿 进程 类 似 ) 。 
Linux 为 了 防止 孤儿 连接 长 时 间 存 留 在 内 核 中 ， 定 义 了 两 个 内 核 变 
量 : /proc/sys/net/ipv4/tcp_max_orphans 
和 /proc/sys/met/ipv4/tcp_fin_timeout。 前 者 指定 内 核能 接管 的 孤儿 连接 数 
目 ， 后 者 指定 孤儿 连接 在 内 核 中 生存 的 时 间 。 














至 此 ， 我 们 简单 地 讨论 了 服务 器 和 客户 端 程序 的 典型 TCP 状 态 转移 
路 线 。 对 应 于 图 3-6 所 示 的 TCP 连 接 的 建立 与 断 开 过 程 ， 客 户 端 和 服务 器 
的 状态 转移 如 图 3-9 所 示 。 


ernest-laptop Kongming20 


(客户 端 ) (服务 器 ) 
主动 打开 报 LISTEN 
SYN SENT 义 段 1 (SYN) ah 
到 SYN RCVD 
报 文 段 2 CSYN， ACK) 
ESTABLISHED 
报 文 段 3 (ACK) 
a ESTABLISHED 
主动 关闭 报 文 段 4 (FIN) ee 
FIN WAIT 1 被 动 关 闭 
报 文 段 5 (ACK) CLOSE WAIT 
FIN WAIT 2 
报 文 段 6_《FIN， ACK) LAST ACK 
TIME WAIT 
报 文 段 7 (ACK ) 
CLOSED 





图 3-9 TCP 连 接 的 建立 和 断 开 过 程 中 客户 端 和 服务 器 的 状态 变化 





图 3-8 还 描绘 了 其 他 非典 型 的 TCP 状 态 转移 路 线 ， 比 如 同时 关闭 与 同 
时 打开 ， 本 书 不 予 讨论 。 


3.4.2 ”TIME_WAIT 状 态 


从 图 3-9 来 看 ， 客 户 端 连接 在 收 到 服务 器 的 结束 报 文 段 “TCP 报 文 段 
6) 之 后 ， 并 没有 直接 进入 CLOSED 状 态 由 ， 而 是 转移 到 TIME_WAIT 状 
态 。 在 这 个 状态 ， 客 户 端 连接 要 等 待 一 段 长 为 2MSL (Maximum 


Segment Life， 报 文 段 最 大 生存 时 间 〉 的 时 间 ， 才 能 完全 关闭 。MSL 是 








TCP 报 文 段 在 网 络 中 的 最 大 生存 时 间 ， 标 准 文档 RFC 1122 的 建议 值 是 2 


min。 


TIME_WAIT 状 态 存 在 的 原因 有 两 点 : 


口 可 靠 地 终止 TCP 连 接 。 


口 保证 让 述 来 的 TCP 报 文 段 有 足够 的 时 间 被 识别 并 丢弃 。 


第 一 个 原因 很 好 理解 。 假 设 图 3-9 中 用 于 确认 服务 器 结束 报 文 段 6 的 
TCP 报 文 段 7 丢失 ， 那 么 服务 器 将 重 及 结束 报 文 段 。 因 此 客户 并 需要 停 
留 在 茶 个 状态 以 处 理 重 复 收 到 的 结束 报 文 段 〈 即 辐 服 务 需 发 送 确认 报 文 
段 ) 。 人 否则 ， 客 户 痛 将 以 复位 报 文 段 来 回应 服务 器 ， 服 务 器 则 认为 这 是 
一 个 错误 ， 因 为 它 期 望 的 是 一 个 像 TCP 报 文 段 7 那 样 的 确认 报 文 段 。 





在 Linux 系 统 上 ， 一 个 TCP 端 口 不 能 被 同时 打开 多 次 (两 次 及 以 
上 ) 。 当 一 个 TCP 连 接 处 于 TIME_WAIT 状 态 时 ， 我 们 将 无 法 立即 使 用 
该 连接 占用 着 的 端口 来 建立 一 个 新 连接 。 反 过 来 思考 ， 如 果 不 存在 
TIME_WAIT 状 态 ， 则 应 用 程序 能 够 立即 建立 一 个 和 刚 关 闭 的 连接 相似 
的 连接 《〈 这 里 说 的 相似 ， 是 指 它们 具有 相同 的 耳 地 址 和 端口 号 》。 这 个 
新 的 、 和 原来 相似 的 连接 被 称 为 原来 的 连接 的 化 身 〈incarnation) 。 新 
的 化 号 可 能 接收 到 属于 原来 的 连接 的 、 携 带 应 用 程序 数据 的 TCP 报 文 段 
《迟到 的 报 文 段 ) ， 这 显然 是 不 应 该 发 生 的 。 这 就 是 TIME_WAIT 状 态 
存在 的 第 二 个 原因 。 











另外 ， 因 为 TCP 报 文 段 的 最 大 生存 时 间 是 MSL， 上 所 以 坚持 2MSL 时 
间 的 TIME_WAIT 状 态 能 够 确保 网 络 上 两 个 传输 方向 上 尚未 被 接收 到 
的 、 迟 到 的 TCP 报 文 段 都 已 经 消失 《被 中 转 路 由 器 丢弃 ) 。 因 此 ， 一 
连接 的 新 的 化 里 可 以 在 2MSL 时 间 之 后 安全 地 建立 ， 而 绝对 不 会 接收 到 
属于 原来 连接 的 应 用 程序 数据 ， 这 就 是 TIME_WAIT 状 态 要 持续 2MSL 时 
间 的 原因 。 








有 时 候 我 们 希望 避免 TTME_WAIT 状 态 ， 因 为 当 程 序 退 出 后 ， 我 们 
希望 能 够 立即 重启 它 。 但 由 于 处 在 TIME_WAIT 状 态 的 连接 还 占用 着 端 
口 ， 程 序 将 无 法 启动 〈 直 到 2MSL 超 时 时 间 结 束 ) 。 考 虑 一 个 例子 : 在 
测试 机 堪 ernest-laptop 上 以 客户 端 方 式 运行 nc《〈 用 于 创建 网 络 连 接 的 工 
具 ， 见 第 17 章 ) 命令 ， 登 录 本 机 的 Web 服 务 ， 且 明确 指定 客户 端 使 用 
12345 端 口 与 服务 器 通信 。 然 后 从 终端 输入 Ctrl+C 终 止 客户 端 程 序 ， 接 
着 又 立即 重启 nc 程序 ， 以 完全 相同 的 方式 再 次 连接 本 机 的 Web 服 务 。 
体操 作 如 下 : 












































Snc-p 12345 192.168.1.108 80 
ctz1+C# 中 断 客户 端 程序 
$nc-p 12345 192.168.1.108 80# 重 启 客户 端 程序 ， 重 新 建立 连接 











nc:pbpind failed:Address already in use# 输 出 显示 连接 失败 ， 因 为 12345 端 口 
仍 被 占用 
$netstat-nat# 用 netstat 命 令 查 看 连接 状态 
Proto Recv-Q Send-Q Local Address Foreign Address State 
tcp 0 0 192.168.1.108:12345 192.168.1.108:80 TIME WAIT 







































































这 里 我 们 使 用 netstat 命 令 查 看 连接 的 状态 。 其 输出 显示 ， 客 户 端 程 


序 被 中 断后 ， 连 接 进 入 TIME_WAIT 状 态 ，12345 端 口 仍 被 占用 ， 所 以 客 
户 端 重启 失败 。 


对 客户 并 程序 来 说 ， 我 们 通常 不 用 担心 上 面 描述 的 重启 问题 。 因 为 
客户 端 一 般 使 用 系统 自动 分 配 的 临时 端口 写 来 建 并 连接， 而 由 于 随机 
性 ， 临 时 问 口 号 一 般 和 程序 上 一 次 使 用 的 端口 号 《还 
状态 的 那个 连接 使 用 的 端口 号 ) 不 同 ， 所 以 客户 端 程序 一 般 可 以 立即 重 
局 。 上 面 的 例子 仅仅 是 为 了 说 明 问 题 ， 我 们 强制 客户 端 使 用 12345 端 
口 ， 这 才 导 致 立即 重启 客户 端 程 序 失败 。 





处 于 TIME_ WAIT 





但 如 果 是 服务 器 主动 关闭 连接 后 异常 终止 ， 则 因为 它 总 是 使 用 同一 
个 知名 服务 端口 号 ， 所 以 连接 的 TIME_WAIT 状 态 将 导致 它 不 能 立即 重 
启 。 不 过 ， 我 们 可 以 通过 socket 选 项 SO_REUSEADDR 来 强制 进程 立即 
使 用 处 于 TIME_WAIT 状 态 的 连接 占用 的 端口 ， 这 将 在 第 5 章 讨论 。 


[1] 请 读者 根据 语 境 判断 连接 的 状态 是 指 客户 端 状 态 还 是 服务 器 状态 ， 
后 同 。 


3.5 复位 报 文 段 





在 茶 些 特殊 条 件 下 ，TCP 连 接 的 一 端 会 问 另 一 端 发 送 携带 RST 标 志 
的 报 文 段 ， 即 复位 报 文 段 ， 以 通知 对 方 天 闭 连 接 或 重新 建 并 连接 。 本 市 
讨论 产生 复位 报 文 段 的 3 种 情况 。 





3.5.1 访问 不 存在 的 端口 





3.4.1 小 市 提 到 ， 当 客户 端 程序 访问 一 个 不 存在 的 病 口 时 ， 目 标 主机 
将 给 它 发 送 一 个 复位 报 文 段 。 考 虑 从 Kongming20 上 执行 telnet 命 令 登 录 
ernest-laptop 上 一 个 不 存在 的 54321 端 口 ， 并 用 tcpdump 抓 取 该 过 程 中 两 
台 主 机 交换 的 TCP 报 文 段 。 具 体操 作 过 程 如 下 : 





$sudo tcpdump-nt-i eth0 port 54321# 仅 抓 取 发 送 至 和 来 自 54321 端 口 的 TCP 报 








文 段 





Stelnet 192.168.1.108 54321 
Trying. 192,.168,.1,.108,,， 
telnet:connect to address 192.168.1.108:Connection refused 























telnet 程 序 的 输出 显示 连接 被 拒绝 了 ， 因 为 这 个 端口 不 存在 。 
tcpdump 抓 取 到 的 TCP 报 文 段 内 容 如 下 : 
























































1.IP 192.168.1.109.42001 二 192.168.1.108.54321:Flags[S],seq 
21621375,win 14600,1length 0 
2.IP 192.168.1.108.54321 二 192.168.1.109.42001:Flags[R.],seq 


0O,ack 21621376,win 0,; length 0 





由 此 可 见 ，ernest-laptop 针 对 Kongming20 的 连接 请 求 〈 同 步 报 文 
段 ) 回应 了 一 个 复位 报 文 段 tcpdump 输 出 R 标 志 ) 。 因 为 复位 报 文 段 的 
接收 通告 窗口 大 小 为 0， 所 以 可 以 预见 ， 收 到 复位 报 文 段 的 一 并 应 该 关 
闭 连 接 或 者 重新 连接 ， 而 不 能 回应 这 个 复位 报 文 段 。 





实际 上 ， 当 客户 端 程序 向 服务 器 的 某 个 端口 发 起 连接 ， 而 该 端口 仍 
被 处 于 TIME_WAIT 状 态 的 连接 所 占用 时 ， 客 户 端 程序 也 将 收 到 复位 报 
文 段 。 








前 面 讨论 的 连接 终止 方式 都 是 正常 的 终止 方式 : 数据 交换 完成 之 
后 ， 一 方 给 男 一 方 发 送 结束 报 文 段 。TCP 提 供 了 异常 终止 一 个 连接 的 方 
法 ， 即 给 对 方 发 送 一 个 复位 报 文 段 。 一 旦 发 送 了 复位 报 文 段 ， 发 送 端 所 
有 排队 等 竺 发送 的 数据 都 将 被 丢 痉 。 





应 用 程序 可 以 使 用 socket 选 项 SO_LINGER 来 发 送 复位 报 文 段 ， 以 异 
常 终止 一 个 连接 。 我 们 将 在 第 5 间 讨 论 SO_LINGER 选 项 。 


3.5.3 ”处 理 半 打 开 连 接 


考虑 下 面 的 情况 : 服务 器 (或 客 己 六) 关闭 或 者 异常 终止 了 连接 ， 
而 对 方 没有 接收 到 结束 报 文 段 (比如 发 生 了 网 络 故 障 ) ， 此 时 ， 客 户 站 


《或 服务 器 ) 还 维持 独 原 来 的 连接 ， 而 服务 器 《或 客户 端 ) 即使 重启， 
也 已 经 没有 该 连接 的 任何 信息 了 。 我 们 将 这 种 状态 称 为 半 打 开 状态 ， 处 
于 这 种 状态 的 连接 称 为 半 打 开 连 接 。 如 果 客 户 端 “或 服务 器 ) 往 处 于 半 
打开 状态 的 连接 写 入 数据 ， 则 对 方 将 回应 一 个 复位 报 文 段 。 


举例 来 说 ， 我 们 在 Kongming20 上 使 用 nc 命令 模拟 一 个 服务 器 程 
序 ， 使 之 监听 12345 端 口 ， 然 后 从 ernest-laptop 运 行 telnet 命 令 登 录 到 该 端 
口上 ， 接 着 拔 掉 ernest-laptop 的 网 线 ， 并 在 Kongming20 上 中 断 服务 器 程 
序 。 显 然 ， 此 时 ernest-laptop 上 运行 的 telnet 客 户 端 程序 维持 着 一 个 半 打 
开 连 接 。 然 后 接 上 ernest-laptop 的 网 线 ， 并 从 客户 端 程序 往 半 打开 连接 
写 入 1 字 节 的 数据 “a”。 同 时 ， 运 行 tcpdump 程 序 抓 取 整 个 过 程 中 telnet 客 
户 端 和 nc 服务 器 交换 的 TCP 报 文 段 。 具 体操 作 过 程 如 下 : 





Snc-1 12345# 在 Kongming20 上 运行 服务 器 程序 

$sudo tcpdump-nt-i eth0 port 12345 

Stelnet 192.168.1.109 12345# 在 ernest-laptop 上 运行 客户 端 程序 

里 至 3 本 入 可 L926 lsd09. 5 

Connected to 192.168.1.109 . 

Escape character is'^]'.# 此 时 断 开 srnest-Laptop 的 网 线 ， 并 重启 服务 器 
a《 回 车 ) # 回 半 打 开 连 接 输入 字符 a 


Connection closed by foreign host . 





















































telnet 的 输出 显示 ， 连 接 被 服务 器 关闭 了 。tcpdump 抓 取 到 的 TCP 报 
文 段 内 容 如 下 : 






































1 ,1p 902,.1681 08555100>192.168.1.1090,12345r+FlagslSl 7 sed 
3093809365, me 0 
221TP .1902,108,.1.109,.12345>192,168::1,108.55100: FlagslS >] Segq 











40033779L ,a0k 30938093667 Length 0 








3.IP 192.168.1.108.55100 字 192.168.1.109.12345:FJlags [.]vack 
























































rlength 0 
4.IP 192.168.1.108.55100 二 192.168.1.109.12345:Flags[P.],seq 
1:4,ack 1,length 3 
5.IP 192.168.1.109.12345 字 192.168.1.108.55100:FlLags[R]l，sed 
1495337792,1length 0 








该 输出 内 容 中 ， 前 3 个 TCP 报 文 段 是 正 闻 建立 TCP 连 接 的 3 次 握手 的 
过 程 。 第 4 个 TCP 报 文 段 由 客户 端 发 送 给 服务 器 ， 它 携带 了 3 字 布 的 应 用 
程序 数据 ， 这 3 字 节 依次 是 : 字母“a”、 回 车 符 “r* 和 换行 符 ^\n”。 不 过 因 
为 服务 器 程序 已 经 被 中 断 ， 所 以 Kongming20 对 客户 端 发 送 的 数据 回应 
了 一 个 复位 报 文 段 5。 





3.6 ”TCP 交互 数据 流 


前 面 讨论 了 TCP 连 接 及 其 状态 ， 从 本 节 开 始 我 们 讨论 通过 TCP 连 接 
交换 的 应 用 程序 数据 。TCP 报 文 段 所 携带 的 应 用 程序 数据 按照 长 度 分 为 
两 种 : 交互 数据 和 成 块 数据 。 交 互 数据 仅 包 含 很 少 的 字 节 。 使 用 交互 数 
据 的 应 用 程序 (或 协议 ) 对 实时 性 要 求 高 ， 比 如 telnet、ssh 等 。 成 块 数 
据 的 长 度 则 通常 为 TCP 报 文 段 允 许 的 最 大 数据 长 度 。 使 用 成 块 数据 的 应 
用 程序 (或 协议 ) 对 传输 效率 要 求 高， 比如 ftp。 本 节 我 们 讨论 交互 数据 

考虑 如 下 情况 : 在 ernest-laptop 上 执行 telnet 命 令 登录 到 本 机 ， 然 后 


在 shell 命 令 提示 符 后 执行 js 命令 ， 同 时 用 tcpdump 抓 取 这 一 过 程 中 telnet 
客户 端 和 telnet 服 务 器 交换 的 TCP 报 文 段 。 有 具体 操作 过 程 如 下 : 








$stcpdump-nt-i lo port 23 

Stelnet 127.0.0.1 

TEVInG 27.0.00 Ls:a 

Connected to 127.0.0.1. 

Escape character is'^]'. 

Ubuntu 9.10 

ernest-laptop login:ernest ( 回 车 ) # 输 入 用 户 名 并 回 车 
Password: 〈 回 车 ) # 输 入 密码 并 回 车 
ernest@ernest-laptop:~$ls〔( 回 车 ) 


















































上 述 过 程 将 引起 客户 端 和 服务 器 交换 很 多 TCP 报 文 段 。 下 面 我 们 仅 
列 出 我 们 感 兴趣 的 、 执 行 ]s 命 令 产 生 的 tcpdump 输 出 ， 如 代码 清单 3-4 所 


代码 清单 3-4 ”TCP 交互 数据 流 






















































































了 
1408334812:1408334813,ack 1415955507,win 613,length 1 

人 
512,1length 1 

3TBP 12760.0.1:581302127.0 .0 1.23:FLlAGS 

4aTP T1270:0.1558130~>127;0.0.1.23:F1ags 
613,length 1 

STE L270 01 232>12770.0.. .580L1307FLags 
512,1length 1 

GET lI O00 L330 L227 U0 L2381 

FIP L270 1.5030 L127 .000051 23¢FLa98 
613,length 2 

Bp L270 L2127 ,0.0 L5830:Plagdge 
512, 1ength 173 

oO TPIL27000 L58302 L270.0.1.237ELadg 
0 

LOLP’ 290.051.23>127:0.0 01%58130.85E 
4,win 512,1length 52 

下 村 
630, length 0 















































adgs [ . 


[P.],seq 


[P.],seq 











1:2,ack 1,win 


[.]vack 2,win 613,1length 0 
[P.],seq 1:2,ack 2,win 


[P.],seq 2:3,ack 2,win 


]vack 3,win 613,， Length 0 
[P.],seq 2:4,ack 3,win 


[P.],seq 3:176,ack 4,win 
[.]vack 176,win 630,1length 
lags[P.],seq 176:228,ack 


lags[.],ack 228,win 





TCP 报 文 段 1 由 客户 端 发 送 给 服务 器 ， 它 携带 1 个 字 节 的 应 用 程序 数 
据 ， 即 字母 人 >"。TCP 报 文 段 2 是 服务 器 对 TCP 报 文 段 1 的 确认 ， 同 时 回 显 
字母 "。TCP 报 文 段 3 是 客户 端 对 TCP 报 文 段 2 的 确认 。 第 4 一 6 个 TCP 报 








文 段 是 针对 字母 “s” 的 上 述 过 程 。TCP 报 文 段 7 传送 的 2 字 节 数据 分 别 是 : 
客户 端 键入 的 回 车 符 和 流 结束 符 〈EOF， 本 例 中 是 0x00) 。TCP 报 文 段 
8 携带 服务 器 返回 的 客户 查询 的 目录 的 内 容 (ls 命令 的 输出 )， 包 括 该 目 
录 下 文件 的 文件 名 及 其 显示 控制 参数 。TCP 报 文 段 9 是 客户 端 对 TCP 报 文 
段 8 的 确认 。TCP 报 文 段 10 携 带 的 也 是 服务 器 返回 给 客户 端的 数据 ， 包 





括 一 个 回 车 符 、 一 个 换行 符 、 客 户 端 登录 用 户 的 PS1 环 境 变 量 〈 第 一 级 
命令 提示 符 ) 。TCP 报 文 段 11 是 客户 端 对 TCP 报 文 段 10 的 确认 。 


在 上 述 过 程 中 ， 客 户 端 针 对 服务 器 返回 的 数据 所 发 送 的 确认 报 文 段 
CTCP 报 文 段 6、9 和 11) 都 不 携 于 任何 应 用 程序 数据 〈 长 度 为 0) ， 而 
服务 器 每 次 发 送 的 确认 报 文 段 CTCP 报 文 段 >、5、8 和 10) 都 包含 它 需 
要 发 送 的 应 用 程序 数据 。 服 务 器 的 这 种 处 理 方式 称 为 延迟 确认 ， 即 它 不 
马上 确认 上 次 收 到 的 数据 ， 而 是 在 一 段 延迟 时 间 后 查看 本 端 是 否 有 数据 
需要 发 送 ， 如 果 有 ， 则 和 确认 信息 一 起 发 出 。 因 为 服务 器 对 客户 请 求 处 
理 得 很 快 ， 所 以 它 发 送 确认 报 文 段 的 时 候 总 是 有 数据 一 起 发 送 。 延 迟 确 
认可 以 减少 发 送 TCP 报 文 段 的 数量 。 而 由 于 用 户 的 输入 速度 明显 慢 于 客 
户 端 程序 的 处 理 速度 ， 所 以 客户 端的 确认 报 文 段 总 是 不 携带 任何 应 用 程 
序数 据 。 前 文 兽 提 到 ， 在 TCP 连 接 的 建立 和 断 开 过 程 中 ， 也 可 能 发 生 延 
迟 确 认 。 








上 例 是 在 本 地 回路 运行 的 结 有 末 ， 在 局 域 网 中 也 能 得 到 基本 相同 的 结 
果 ， 但 在 广域网 就 未 必 如 此 了 。 广 域 网 上 的 交互 数据 流 可 能 经 受 很 大 的 
延 人 运 ， 并 且 ， 携 带 交 互 数 据 的 微小 TCP 报 文 段 数量 一 般 很 多 (一 个 按键 
输入 就 导致 一 个 TCP 报 文 段 ”， 这 些 因素 都 可 能 导致 拥塞 发 生 。 解 决 该 
问题 的 一 个 简单 有 效 的 方法 是 使 用 Nagle 算 法 。 

















Nagle 算 法 要 求 一 个 TCP 连 接 的 通信 双方 在 任意 时 刻 都 最 多 只 能 发 
送 一 个 未 被 确认 的 TCP 报 文 段 ， 在 该 TCP 报 文 段 的 确认 到 达 之 前 不 能 发 


送 其 他 TCP 报 文 段 。 另 一 方面 ， 发 送 方 在 等 待 确认 的 同时 收集 本 端 需要 
发 送 的 微量 数据 ， 并 在 确认 到 来 时 以 一 个 TCP 报 文 段 将 它们 全 部 发 出 。 
这 样 就 极 大 地 减少 了 网 络 上 的 微小 TCP 报 文 段 的 数量 。 该 算法 的 另 一 个 
优点 在 于 其 目 适应 性 : 确认 到 达 得 越 快 ， 数 据 也 束 发 送 得 越 快 。 


3.7 ”TCP 成 块 数据 流 


下 面 考虑 用 FIP 协议 传输 一 个 大 文件 。 在 ernest-laptop 上 局 动 一 个 
vsftpd 服 务 器 程序 (升级 的 、 安 全 版 的 ftp 服 务 右 程序 ) ， 并 执行 ftp 命 令 
登录 该 服务 器 上 ， 人 然后 在 fi 命令 提示 符 后 输入 get 命 令 ， 从 服务 右 下 载 
一 个 几 百 兆 的 大 文件 。 同 时 用 tcpdump 抓 取 这 一 个 过 程 中 ftp 客 户 端 和 
vsftpd 服 务 器 交换 的 TCP 报 文 段 。 有 具体 操作 过 程 如 下 





$sudo tcpdump-nt-i eth0 port 20#vsftpdq 服 务 器 程序 使 用 端口 号 20 
Stke L277.030.4 
Connected to 127.0.0.1. 

220 (vsFTPd 2.3.0) 

Name (127.0.0.1:ernest) :ernest( 回 车 ) # 输 入 用 户 名 并 回 车 
331 Please specify the password. 

Password: 〈 回 车 ) # 输 入 密码 并 回 车 

230 Login successful. 

Remote system type is UNIX. 

Using binary mode to transfer files. 


ftp>>get bigfile〔( 回 车 ) # 获 取 大 文件 pigfile 






























































代码 清单 3-5 是 该 过 程 的 部 分 tcpdump 输 出 。 


代码 清单 3-5” TCP 成 块 数据 流 
























































1 .1P 127.0.0.1.20>127.0.0.1.39651 :Flagsl: |] ,Seq 
205783041:205799425,ack 1v win 513,1length 16384 

2.TP 127.0.0.1.20>127.0.0.1.39651:Flags[,],sedq 
205799425:205815809,ack 1,win 513,1length 16384 

3.IP 127.0.0.1.20127.0.0.1.39651:Flags[.],seq 
205815809:205832193,ack 1,win 513,1length 16384 

4.IP 127.0.0.1.20>127.0.0.1.39651:Flags[P.]，sed 






































205832193:205848577,ack 1,win 513,length 16384 








ST T2700 L20127 0 0. L39651: 
205848577:205864961,ack 1,win 513,1leng 

和 
205864961:205881345,ack 1,win 513,1leng 

elb ta U0 L201272U0U20 7b.39681: [ 
205881345:205897729,ack 1,win 513,1lengt 16384 

8 TP 127.050. L20127.0.0 ,13965L:ElaygslP] rsed 
205897729:205914113,ack 1,win 513,length 16384 

GTP 12730c075Le202127 0.00 Lr 390065 LrFlagsl | Seg 
205914113:205930497 ack Lwin S13 length .L6384 
OTP T1270 .00L5202127 .0 .01.390651 PladS|.. | ySed 
205930497:205946881,ack 1ywin 513,length 16384 
| 
205946881 :2059063265.ack 1ywin 513,length 16384 
12. TP 127.0,.0%1720>127.0,0.17539651: PlagslP, |, Seq 
205963265:205979649,ack 1ywin 513,length 16384 
T1131TP 127050%1.20 之 127 ,00.139651:F7lagsl, |] ,seq 
205979649:205996033,ack 1ywin 513,length 16384 
T1451P T2700 L2202>1277050. .39651<F1aAgs lL: |rSeg 
205996033*206012417y aCK 1ywin 513,1length 16384 
1 TP T2700 L202127720 00.1.39651T1lAgSs[l |7Se9 
206012417:206028801,ack 1ywin 513,1length 16384 
ToTP L127.0,0,. L720 7127 ,00.1.390651 Flagslb. | rsSeq 
206028801:206045185,ack 1ywin 513,length 16384 
17.IP 127.0.0.1.39651 二 127.0.0.1.20:Flags[.],ack 205815809,win 
30084,1length 0 
18.IP 127.0.0.1.39651 二 127.0.0.1.20:Flags[.],ack 206045185,win 
27317,length 0 


HT 


ags[.],seq 
16384 
ags[.],seq 
16384 

ags[.],seq 
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注意 ， 客 户 端 发 送 的 最 后 两 个 TCP 报 文 段 17 和 18， 它 们 分 别 是 对 
TCP 报 文 段 2 和 16 的 确认 【从 序号 值 和 确认 值 来 判断 ) 。 由 此 可 见 ， 当 
传输 大 量 大 块 数据 的 时 候 ， 发 送 方 会 连续 发 送 多 个 TCP 报 文 段 ， 接 收 方 
可 以 一 次 确认 所 有 这 些 报 文 段 。 那 么 发 送 方 在 收 到 上 一 次 确认 后 ， 能 连 
续 发 送 多 少 个 TCP 报 文 段 呢 ? 这 是 由 接收 通告 窗口 《还 需要 考虑 拥塞 窗 
口 ， 见 后 文 ) 的 大 小 决定 的 。TCP 报 文 段 17 说 明 客 户 端 还 能 接收 30 
084x64 字 市 (本 例 中 窗口 扩大 因子 为 6; ， 即 1 925 376 字 市 的 数据 。 而 
在 TCP 报 文 段 18 中 ， 接 收 通 告 窗口 大 小 为 1 748 288 字 节 ， 即 客户 端 能 接 








收 的 数据 量变 小 了 。 这 表明 客户 端的 TCP 接 收 缓冲 区 有 更 多 的 数据 未 被 
应 用 程序 读 取 而 停留 在 其 中 ， 这 些 数 据 都 来 自 TCP 报 文 段 3 一 16 中 的 一 
部 分 。 服 务 器 收 到 TCP 报 文 段 18 后 ， 它 至 少 〈 因 为 接收 通告 窗口 可 能 扩 
大 ) 还 能 连续 发 送 的 未 被 确认 的 报 文 段 数 量 是 1 748 288/16 384 个 ， 即 

106 个 (但 一 般 不 会 连续 发 送 这 么 多 ) 。 其 中 ，16 384 是 成 块 数据 的 长 
度 〈 见 TCP 报 文 段 1 一 16 的 length 值 ) ， 很 显然 它 小 于 但 接近 MSS 规 定 的 
16 396 字 市 。 





另外 一 个 值得 注意 的 地 方 是 ， 服 务 器 每 发 送 4 个 TCP 报 文 段 束 传 送 
一 个 PSH 标 志 〈tcpdump 输 出 标志 P) 给 客户 端 ， 以 通知 客户 端的 应 用 程 
序 尽 快 读 取 数 据 。 不 过 这 对 服务 器 来 说 显然 不 是 必需 的 ， 因 为 它 知道 客 
户 端的 TCP 接 收 缓冲 区 中 还 有 空闲 空间 (接收 通告 窗口 大 小 不 为 0)。 








下 面 我 们 修改 系统 的 TCP 接 收 缓冲 区 和 TCP 发 送 缓冲 区 的 大 小 《如 
何 修改 将 在 第 16 章 介绍 ) ， 使 之 都 为 4096 字 节 ， 然 后 重 局 vsftpd 服 务 
器 ， 并 再 次 执行 上 述 操作 。 此 次 tcpdump 的 部 分 输出 如 代码 清单 3-6 所 


不 。 


代码 清单 3-6 ”修改 TCP 接 收 和 发 送 缓冲 区 大 小 后 的 TCP 成 块 数 据 尝 





P L127.020,.1.20>127,.0.0.1.452277FPlagsl,] ,Seq 
Tol9or3lT37ack Lwin 3072, Length- 1536 
2 L237.06051,.20>127,.0,0,.1.45227:Plag8g[,] Sed 
13:5198849,ack 1,win 3072,1length 1536 

LP ToT O00 AS2272127 00.208Lladsl[l, | yaek SL98849, In 

































































A TPIZITAO 0 L20270.0,. 1 .452277E1a08[ Py Se 





5198849:5200385,ack 1,win 3072,length 1536 
5.IP 127.0.0.1.45227 二 >127.0.0.1.20:Flags[.],ack 5200385,win 
3072,length 0 








从 同步 报 文 段 〈 未 在 代码 清单 3-6 中 列 出 ) 得 知 在 这 次 通信 过 程 
中 ， 客 户 端 和 服务 器 的 窗口 扩大 因子 都 为 0， 因 而 客户 端 和 服务 器 每 次 
通告 的 窗口 大 小 都 是 3072 字 节 〈 没 超过 4096 字 节 ， 预 料 之 中 ) 。 因 为 每 
个 成 块 数据 的 长 度 为 1536 字 节 ， 上 所 以 服务 器 在 收 到 上 一 个 TCP 报 文 段 的 
确认 之 前 最 多 还 能 再 发 送 1 个 TCP 报 文 段 ， 这 正 是 TCP 报 文 段 1 一 3 描述 的 
情形 。 





3.8 ”市 外 数据 


有 些 传 输 层 协议 具有 带 外 〈Out Of Band，OOB ) 数据 的 概念 ， 用 
于 迅速 通告 对 方 本 站 发 生 的 重要 事件 。 因 此 ， 带 外 数据 比 普 通 数 据 (也 
称 为 带 内 数据 ) 有 更 高 的 优先 级 ， 它 应 该 总 是 立即 被 发 送 ， 而 不 论 发 送 
缓冲 区 中 是 否 有 排队 等 竺 发送 的 普通 数据 。 价 外 数据 的 传输 可 以 使 用 一 

条 独立 的 传输 层 连接 ， 也 可 以 映射 到 传输 普通 数据 的 连接 中 。 实 际 应 用 
中 ， 带 外 数据 的 使 用 很 少见 ， 已 知 的 仅 有 telnet、ftp 等 远程 非 活跃 程 
Ss 











UDP 没 有 实现 带 外 数据 传输 ，TCP 也 没有 真正 的 带 外 数据 。 不 过 
TCP 利 用 其 头 部 中 的 紧急 指针 标志 和 紧急 指针 两 个 字段 ， 给 应 用 程序 提 
供 了 一 种 紧急 方式 。TCP 的 紧急 方式 利用 传输 普通 数据 的 连接 来 传输 紧 
急 数 据 。 这 种 紧急 数据 的 含义 和 带 外 数据 类 似 ， 因 此 后 文 也 将 TCP 紧 急 
数据 称 为 带 外 数据 。 


我 们 先 来 介绍 TCP 发 送 带 外 数据 的 过 程 。 假 设 一 个 进程 已 经 往 茶 个 
TCP 连 接 的 发 送 缓冲 区 中 写 入 了 N 字 节 的 普通 数据 ， 并 等 待 其 及 送 。 在 
数据 被 发 送 前 ， 该 进程 叉 同 这 个 连接 写 入 了 3 字 节 的 带 外 数据 “abc"。 此 
时 ， 待 发 送 的 TCP 报 文 段 的 尖 部 将 被 设置 URG 标 志 ， 并 且 紧 急 指 针 被 设 
置 为 指 癌 最 后 一 个 带 外 数据 的 下 一 字 节 《进一步 减 去 当前 TCP 报 文 段 的 








序号 值得 到 其 头 部 中 的 紧急 侦 移 值 ) ， 如 图 3-10 所 示 。 


TCP 发 送 缓冲 区 
| 


第 1 字 节 第 N 字 节 紧急 指针 


图 3-10 TCP 发 送 缓冲 区 中 的 紧急 数据 


由 图 3-10 可 见 ， 发 送 端 一 次 发 送 的 多 字 节 的 带 外 数据 中 只 有 最 后 一 
字 节 被 当 作 带 外 数据 〈 字 母 c) ， 而 其 他 数据 〈 字 母 a 和 b) 被 当成 了 普 
通 数据 。 如 有 果 TCP 模 块 以 多 个 TCP 报 文 段 来 及 送 图 3-10 所 示 TCP 发 送 组 
冲 区 中 的 内 容 ， 则 每 个 TCP 报 文 段 都 将 设置 URG 标 志 ， 并 且 它 们 的 紧急 
指针 指向 同一 个 位 置 〈 数 据 流 中 带 外 数据 的 下 一 个 位 置 ) ， 但 只 有 一 个 
TCP 报 文 段 真 正 携带 带 外 数据 。 





现在 考虑 TCP 接 收 带 外 数据 的 过 程 。TCP 接 收 端 只 有 在 接收 到 紧急 
旨 针 标志 时 才 检 查 紧 急 指针 ， 然 后 根据 紧急 指针 所 指 的 位 置 确定 带 外 数 
据 的 位 置 ， 并 将 它 读 入 一 个 特殊 的 缓存 中 。 这 个 缓存 只 有 1 字 节 ， 称 为 
币 外 缓存 。 如 果 上 层 应 用 程序 没有 及 时 将 带 外 数据 从 市 外 缓存 中 读 出 ， 
则 后 续 的 带 外 数据 (如果 有 的 话 ) 将 履 盖 它 。 





前 面 讨论 的 带 外 数据 的 接收 过 程 是 TCP 模 块 接收 带 外 数据 的 默认 方 
式 。 如 果 我 们 给 TCP 连 接 设 置 了 SO_OOBINLINE 选 项 ， 则 带 外 数据 将 和 


普通 数据 一 样 被 TCP 模 块 存放 在 TCP 接 收 缓冲 区 中 。 此 时 应 用 程序 需要 
像 读 取 普 通 数据 一 样 来 读 取 带 外 数据 。 那 么 这 种 情况 下 如 何 区 分 带 外 数 
据 和 普通 数据 昵 ?显然 ， 紧 急 指 针 可 以 用 来 指出 带 外 数据 的 位 置 ， 
socket 纺 程 接口 也 提供 了 系统 调用 来 识别 带 外 数据 〈 见 第 5 章 ) 。 





至 此 ， 我 们 讨论 了 TCP 模 块 发 送 和 接收 带 外 数据 的 过 程 。 至 于 内 核 
如 何 通知 应 用 程序 带 外 数据 的 到 来 ， 以 及 应 用 程序 如 何 发 送 和 接收 带 外 
数据 ， 将 在 后 续 章 节 讨 论 。 


3.9 ”TCP 超 时 重 传 


在 3.6 节 一 3.8 节 中 ， 我 们 讲述 了 TCP 在 正常 网 络 情况 下 的 数据 流 。 
从 本 节 开 始 ， 我 们 讨论 异常 网 络 状况 下 开始 出 现 超时 或 于 包 ) ，TCP 
如 何 控制 数据 传输 以 保证 其 承 诡 的 可 靠 服 务 。 


TCP 服 务必 须 能 够 重 传 超时 时 间 内 未 收 到 确认 的 TCP 报 文 段 。 为 
此 ，TCP 模 块 为 每 个 TCP 报 文 段 都 维护 一 个 重 传 定时 器 ， 该 定时 器 在 
TCP 报 文 段 第 一 次 被 发 送 时 启动 。 如 果 超 时 时 间 内 未 收 到 接收 方 的 应 
答 ，TCP 模 块 将 重 传 TCP 报 文 段 并 重 置 定时 器 。 人 至 于 下 次 重 传 的 超时 时 
间 如 何 选 择 ， 以 及 最 多 执行 多 少 次 重 传 ， 就 是 TCP 的 重 传 策略 。 我 们 通 
过 实例 来 研究 Linux 下 TCP 的 超时 重 传 策略 。 


在 ernest-laptop 上 启动 jperf 服 务 嚣 程序， 然后 从 Kongming20 上 执行 
telnet 命 令 登录 该 服务 器 程序 。 接 下 来 ， 从 telnet 客 户 站 发送 一 些 数据 
(此 处 是 “1234”) 给 服务 器 ， 然 后 断 开 服务 器 的 网 线 并 再 次 从 客户 端 发 

送 一 些 数据 给 服务 器 (此 处 是 “12”) 。 同 时 ， 用 tcpdump 抓 取 这 一 过 程 
中 客户 端 和 服务 器 交换 的 TCP 报 文 段 。 具 体操 作 过 程 如 下 : 

$sudo tcpdump-n-i eth0 port 5001 

$iperf-s# 在 ernest-laptop 上 执行 

Stelnet 192.168.1.108 5001# 在 Kongming20 上 执行 

TrEYLNG T192516851.25108. 


Connected to 192.168.1.108. 
Escape character is'^]'. 




















1234# 发 送 完 之 后 断 开 服务 器 网 线 
12 
Connection closed by foreign host 











iperf 是 一 个 测量 网 络 状 况 的 工具 ，-s 选 项 表示 将 其 作为 服务 器 运 
行 。iperf 默 认 监听 5001 端 口 ， 并 丢弃 该 端口 上 接收 到 的 所 有 数据 ， 相 当 
于 一 个 discard 服 务 器 。 上 述 操作 过 程 的 部 分 tkcpdump 输 出 如 代码 清单 3-7 
所 示 。 


代码 清单 3-7 TCP 超 时 重 传 
































































































































































































































































































































1.18:44:57.580341 IP 192.168.1.109.38234 
92.168.1.108.5001:Flags[Sl,seq 2381272950,1length 0 
2 LAAYDI 004 TP L925168. L7108 .5001.> 
92.168.1.109.38234:Flags[S.],seq 466032301,ack 2381272951,1length 0 
S31844r57 580498 LP 192,.168.,.1,.109.,.38234> 
92.168.1.108.5001:Flags[.],ack 1,length 0 
4.18:44:59.866019 IP 192.168.1.109.38234>> 
92.168.1.108.5001:Flags[P.],seq 1:7,ack 1,length 6 
.lA4459.8066165 TE 192, L681 -408 53500 
92.168.1.109.38234:Flags[.],ack 7,length 0 
G84d5725 .028933 TP 工 S2 .68 09 39234 过 
92.168.1.108.5001:Flags[P.],seq 7:1l,ack 1,length 4 
lod5r25230034 TP 192.168x15109.38234.7 
92.168.1.108.5001:Flags[P.],seq 7:11l,ack 1,length 4 
B710:4525,.639407 TP 192.168, 1 109738234> 
92.168.1.108.5001:Flags[P.],seq 7:11,ack 1,length 4 
018s4526.455942 TBP -11992705168 L109.38234 之 
92.168.1.108.5001:Flags[P.],seq 7:11l,ack 1,length 4 
10. 18.45:28.092425 .TP 192.168.1.109;38234> 
192.168.1.108.5001:Flags[P.],seq 7:11l,ack 1,length 4 
Td 072473 .TP L902. 168 .1 .109.382342 
192.168.1.108.5001:Flags[P.],seq 7:1l,ack 1,length 4 
12.18:45:33.100888 ARP,Request who-has 192.168.1.108 tell] 
192.168.1.109,1length 28 
13.18:45:34.098156 ARP,Request who-has 192.168.1.108 tell] 
192.168.1.109,1length 28 
14.18:45:35.100887 ARP,Request who-has 192.168.1.108 tell] 
192.168.1.109,1length 28 
15.18:45:37.902034 ARP,Request who-has 192.168.1.108 tell] 


























































































































































































































92.168.1.109,length 28 
16.18:45:38.903126 ARP,Request who-has 192.168.1.108 tel] 
92.168.1.109,1length 28 
17.18:45:39.901421 ARP,Request who-has 192.168.1.108 tell] 
92.168.1.109,length 28 
18.18:45:44.440049 ARP,Request who-has 192.168.1.108 tell 
92., 1:6.8:,1 09, length 28 
19.18:45:45.438840 ARP,Request who-has 192.168.1.108 tel] 
92.. 68 09, length 28 
20.18:45:46.439932 ARP,Request who-has 192.168.1.108 tell] 
92.168.1.109,1length 28 
21.18:45:50.976710 ARP,Request who-has 192.168.1.108 tell] 
92.168.1.109,length 28 
22.18:45:51.974134 ARP,Request who-has 192.168.1.108 tell] 
92.168.1.109,length 28 
23.18:45:52.973939 ARP,Request who-has 192.168.1.108 tell] 
192.168.1.109,1length 28 








TCP 报 文 段 1~3 是 三 次 握手 建立 连接 的 过 程 ，TCP 报 文 段 4~5 是 客 
户 端 发 送 数据 “1234”〈 应 用 程序 数据 长 度 为 6， 包 括 回 车 、 换 行 两 个 字 
符 ， 后 同 ) 及 服务 器 确认 的 过 程 。TCP 报 文 段 6 是 客户 端 第 一 次 发 送 数 
据 *12” 的 过 程 。 因 为 服务 器 的 网 线 被 断 开 ， 所 以 客户 端 无 法 收 到 TCP 报 
文 段 6 的 确认 报 文 段 。 此 后 ， 客 户 端 对 TCP 报 文 段 6 执行 了 5 次 重 传 ， 

们 是 TCP 报 文 段 7 一 11， 这 可 以 从 每 个 TCP 报 文 段 的 序号 得 知 。 此 后 ， 数 
据 包 12 一 23 都 是 ARP 模 块 的 输出 内 容 ， 即 Kongming20 碍 询 ernest-laptop 
的 MAC 地 址 。 





我 们 保留 了 tcpdump 输 出 的 时 间 戳 ， 以 便 推 理 TCP 的 超时 重 传 策 
略 。 观 察 TCP 报 文 段 6 一 11 被 发 送 的 时 间 间 陋 ， 它 们 分 别 为 0.2 s、0.4 S、 
0.8 s、1.6 s 和 3.2 s。 由 此 可 见 ，TCP 一 共 执行 5 次 重 传 ， 每 次 重 传 超时 时 
间 都 增加 一 倍 《〈 因 此 ， 和 TCP 超 时 重 连 的 策略 相似 ) 。 在 5 次 重 传 均 失 


败 的 情况 下 ， 撒 层 的 卫 和 ARP 开 始 接管 ， 直 到 telnet 客 户 端 放弃 连接 为 
让 


Linux 有 两 个 重要 的 内 核 参 数 与 TCP 超 时 重 传 相 
关 : /proc/sys/net/ipv4/tcp_retries1 和 /proc/sys/net/ipv4/tcp_retries2。 前 者 
指定 在 底层 JP 接管 之 前 TCP 最 少 执行 的 重 传 次 数 ， 默 认 值 是 3。 后 者 指 
定 连 接 放弃 前 TCP 最 多 可 以 执行 的 重 传 次 数 ， 默 认 值 是 15〔 一 般 对 应 13 
一 30 min) 。 在 我 们 的 实例 中 ，TCP 超 时 重 传 发 生 了 5 次 ， 连 接 坚 持 的 时 
间 是 15 min (可 以 用 date 命 令 来 测量 〉。 





虽然 超时 会 导致 TCP 报 文 段 重 传 ， 但 ITCP 报 文 段 的 重 传 可 以 及 生 在 
超时 之 前 ， 即 快速 重 传 ， 这 将 在 下 一 节 中 讨论 。 


3.10 ”拥塞 控制 


3.10.1 拥塞 控制 概述 


TCP 模 块 还 有 一 个 重要 的 任务 ， 就 是 提高 网 络 利 用 率 ， 降 低 丢 包 
率 ， 并 保证 网 络 资源 对 每 条 数据 流 的 公平 性 。 这 就 是 所 谓 的 拥 礁 控制 。 


TCP 拥 塞 控制 的 标准 文档 是 RFC 5681， 其 中 详细 介绍 了 拥塞 控制 的 
四 个 部 分 : 慢 启 动 (slow start) 、 拥 塞 避免 《congestion avoidance) 、 
快速 重 传 (fast retransmit) 和 快速 恢复 (fast recovery) 。 拥 去 控制 算法 
在 Linux 下 有 多 种 实现 ， 比 如 reno 算 法 、vegas 算 法 和 cubic 算 法 等 。 它 们 
或 者 部 分 或 者 全 部 实现 了 上 述 四 个 部 
分 。/proc/sys/net/ipv4/tcp_congestion_control 文 件 指示 机 器 当前 所 使 用 的 
拥塞 控制 算法 。 


拥塞 控制 的 最 终 受 控 变 量 是 发 送 端 向 网 络 一 次 连续 写 入 《〈《 收 到 其 中 
第 一 个 数据 的 确认 之 前 ) 的 数据 量 ， 我 们 称 为 SWND (Send Window， 
发 送 窗口 趾 ) 。 不 过 ， 发 送 端 最 终 以 TCP 报 文 段 来 发 送 数据 ， 所 以 
SWND 限 定 了 发 送 端 能 连续 发 送 的 TCP 报 文 段 数 量 。 这 些 TCP 报 文 段 的 
最 大 长 度 〈 仅 指数 据 部 分 ) 称 为 SMSS (Sender Maximum Segment 
Size， 发 送 者 最 大 段 大 小 ) ， 其 值 一 般 等 于 MSS。 


发 送 端 需要 合理 地 选择 SWND 的 大 小 。 如 果 SWND 太 小 ， 会 引起 明 
显 的 网 络 延迟 ;有 反之， 如果 SWND 太 大 ， 则 容易 导致 网 络 拥塞。 前 文 提 
到 ， 接 收 方 可 通过 其 接收 通告 窗口 (RWND) 来 控制 发 送 端的 SWND。 
但 这 显然 不 够 ， 所 以 发 送 端 引入 了 一 个 称 为 拥塞 窗口 (Congestion 
Window，CWND) 的 状态 变量 。 实 际 的 SWND 值 是 RWND 和 CWND 中 
的 较 小 者 。 图 3-11 显 示 了 拥塞 控制 的 输入 和 输出 (可 见 ， 它 是 一 个 闭环 
反馈 控制 ) 。 








网 络 状 况 ， 比 如 RIT， 是 否 丢 包 等 





图 3-11 拥塞 控制 的 输入 和 输出 
3.10.2” 慢 启动 和 拥塞 避免 


TCP 连 接 建 立 好 之 后 ，CWND 将 被 设置 成 初始 值 IW (Initial 
Window) ， 其 大 小 为 2 一 4 个 SMSS。 但 新 的 Linux 内 核 提 高 了 该 初始 
值 ， 以 减 小 传输 滞后 。 此 时 发 送 端 最 多 能 发 送 IW 字 节 的 数据 。 此 后 发 
送 端 每 收 到 接收 端的 一 个 确认 ， 其 CWND 就 按照 式 〈3-1) 增加 : 


CWND+=min (N, SMSS) (3-1) 


其 中 N 有 是 此 次 确认 中 包含 的 之 前 未 被 确认 的 字 节 数 。 这 样 一 来 ， 
CWND 将 按照 指数 形式 扩大 ， 这 束 是 所 谓 的 慢 局 动 。 慢 局 动 算法 的 理由 
是 ，TCP 模 块 刚 开 始 发 送 数 据 时 并 不 知道 网 络 的 实际 情况 ， 需 要 用 一 种 
试探 的 方式 平滑 地 增加 CWND 的 大 小 。 








但 是 如 果 不 施加 其 他 手段 ， 慢 启动 必然 使 得 CWND 很 快 膨胀 (可 见 
慢 启 动 其 实 不 慢 ) 并 最 终 导 致 网 络 拥塞 。 因 此 TCP 拥 塞 控制 中 定义 了 另 
一 个 重要 的 状态 变量 : 慢 启 动 门限 〈slow start threshold size， 
ssthresh) 。 当 CWND 的 大 小 超过 该 值 时 ，TCP 拥 罕 控 制 将 进入 拥塞 避免 
阶段 。 








拥塞 避免 算法 使 得 CWND 按 照 线 性 方式 增加 ， 从 而 减缓 其 扩大 。 
RFC 5681 中 提 到 了 如 下 两 种 实现 方式 : 


口 每 个 RTT 时 间 内 按照 式 (3-1) 计算 新 的 CWND， 而 不 论 该 RTT 时 
间 内 发 送 端 收 到 多 少 个 确认 。 


口 每 收 到 一 个 对 新 数据 的 确认 报 文 段 ， 就 按照 式 〈3-2) 来 更 新 
CWND。 


CWND+=SMSS*SMSS/CWND (3-2) 


图 3-12 粗 略 地 描述 了 慢 启 动 和 拥塞 避免 发 生 的 时 机 和 区 别 。 该 图 
中 ， 我 们 以 SMSS 为 单位 来 显示 CWND (实际 上 它 是 以 字 节 为 单位 





的 ) ， 以 次 数 为 单位 来 显示 RTT， 这 只 是 为 了 方便 讨论 问题 。 此 外 ， 我 
们 假设 当前 的 ssthresh 是 16SMSS 大 小 (当然 ， 实 际 的 ssthresh 显 然 远 不 止 


这 么 大 ) 。 


CWND 
(单位 : SMSS) 


20 
18 
16 ssthresh 


(em 


0 l p 3 4 5 6 7 
RTT (单位 : 次 ) 


图 3-12 慢 启 动 和 拥塞 避免 


以 上 我 们 讨论 了 发 送 端 在 未 检测 到 拥 暑 时 所 采用 的 积极 避免 拥 败 的 
方法 。 接 下 来 介绍 拥塞 发 生 时 《可 能 发 生 在 慢 月 动 阶段 或 者 拥塞 避免 阶 
段 ) 拥 窄 控 制 的 行为 。 不 过 我 们 先 要 搞 消 楚 发 送 端 是 如 何 判 断 拥 野 已 经 
发 生 的 。 发 送 端 判断 拥 墅 发生 的 依据 有 如 下 两 个 : 





口传 输 超时 ， 或 者 说 TCP 重 传 定 时 器 溢出 。 


口 接收 到 重复 的 确认 报 文 段 。 


拥塞 控制 对 这 两 种 情况 有 不 同 的 处 理 方式 。 对 第 一 种 情况 仍然 使 用 
慢 局 动 和 拥塞 避免 。 对 第 二 种 情况 则 使 用 快速 重 传 和 快速 恢复 《如 果 是 
真 的 发 生 拥 塞 的 话 ) ， 这 种 情况 将 在 后 面 讨论 。 注意 ， 第 二 种 情况 如 果 
发 生 在 重 传 定 时 融 洲 出 之 后 ， 则 也 被 拥塞 控制 当成 第 一 种 情况 来 对 符 。 





如 果 发 送 端 检测 到 拥 窟 发 生 是 由 于 传输 超时 ， 即 上 述 第 一 种 情况 ， 
那么 它 将 执行 重 传 并 做 如 下 调整 : 


ssthresh=max (FlightSize/2, 2*SMSS) (3-3) 


CWMD<=SMSS 





其 中 FlightSize 是 已 经 发 送 但 未 收 到 确认 的 字 节 数 。 这 样 调整 之 后 ， 
CWMD 将 小 于 SMSS， 那 么 也 必然 小 于 新 的 慢 启 动 门限 值 ssthresh 〈 因 为 
根据 式 〈3-3) ， 它 一 定 不 小 于 SMSS 的 2 倍 ) ， 故 而 拥塞 控制 再 次 进入 
慢 启动 阶段 。 


3.10.3 ”快速 重 传 和 快速 恢复 


在 很 多 情况 下 ， 发 送 端 都 可 能 接收 到 重复 的 确认 报 文 段 ， 比 如 TCP 
报 文 段 丢 失 ， 或 者 接收 端 收 到 乱 序 TCP 报 文 段 并 重 排 之 等 。 拥 塞 控制 算 
法 需要 判断 当 收 到 重复 的 确认 报 文 段 时 ， 网 络 是 侣 真 的 发 生 了 拥塞 ， 或 


者 说 TCP 报 文 段 是 否 真 的 丢失 了 。 有 具体 做 法 是 : 发送 端 如 果 连 续 收 到 3 
个 重复 的 确认 报 文 段 ， 就 认为 是 拥 窄 发 生 了 。 然 后 它 启 用 快速 重 传 和 快 
速 恢 复 算法 来 处 理 拥塞 ， 过 程 如 下 : 





1) 当 收 到 第 3 个 重复 的 确认 报 文 段 时 ， 按 照 式 〈3-3) 计算 
ssthresh， 然 后 立即 重 传 丢失 的 报 文 段 ， 并 按照 式 (3-4) 设置 CWND。 


CWND=ssthresh+3*SMSS (3-4) 


2) 每 次 收 到 1 个 重复 的 确认 时 ， 设 置 CWND=CWND+SMSS。 此 时 
发 送 端 可 以 发 送 新 的 TCP 报 文 段 《如果 新 的 CWND 人 允许 的 话 ) 。 


3) 当 收 到 新 数据 的 确认 时 ， 设 置 CWND=ssthresh (ssthresh 是 新 的 
慢 启动 门限 值 ， 由 第 一 步 计 算得 到 〉。 








快速 重 传 和 快速 恢复 完成 之 后 ， 拥 赛 控 制 将 恢复 到 拥 竖 避免 阶段 ， 
这 一 点 由 第 3 步 操 作 可 得 知 。 
[1] 这 里 所 说 的 窗口 实际 上 是 指 窗口 的 大 小 ， 这 里 只 是 保留 了 行业 的 习 


惯 说 法 。 


第 4 草 TCP/IP 通 信和 案例 : 访问 Internet 上 的 Web 服 
务 表 


在 第 1 章 中 ， 我 们 简单 地 讨论 了 TCP/IP 协 议 族 各 层 的 功能 和 部 分 协 
议 ， 以 及 它们 之 间 是 如 何 协作 完成 网 络 通信 和 的。 在 第 2 章 和 第 3 章 中 ， 我 
们 详细 地 探讨 了 IP 协 议和 TCP 协 议 。 本 章 ， 我 们 分 析 一 个 完整 的 TCP/IP 
通信 的 实例 一 一 访问 Intemet 上 的 Web 服 务 器 ， 通 过 该 实例 把 这 些 知 识 串 
联 起 来 。 选 择 使 用 Web 服 务 器 展开 讨论 的 理由 是 : 








Dmternet 上 的 Web 服务 器 随处 都 可 以 获得 ， 我 们 通过 浏览 需 访 问 任 
何 一 个 网 站 都 是 在 与 Web 服 务 需 通信 。 





口 本 书后 续 章 节 将 编写 简单 的 web 服务器 程序 ， 因 此 先 学 习 其 工作 
原理 是 有 好 处 的 。 





Web 客 户 端 和 服务 器 之 间 使 用 HTTP 协 议 通信 。HTTP 协 议 的 内 容 相 
当 广 泛 ， 涵 盖 了 网 络 应 用 层 协 议 需 要 考虑 的 诸多 方面 。 因 此 ， 学 习 
HTTP 协 议 对 应 用 层 协 议 设计 将 大 有 神 益 
4.1 实例 总 图 


我 们 按照 如 下 方法 来 部 绪 通 信和 实例 ， 在 Kongming20 上 运行 wget 客 


户 端 程序 ， 在 ernest-laptop 上 运行 squid 代 理 服务 器 程序 。 客 户 端 通过 代 
理 服 务 器 的 中 转 ， 获 取 Internet 上 的 主机 www.baidu.com 的 首页 文档 
index.htm1， 如 图 4-1 所 示 。 


Kongming20 ernest-laptop www.baidu.com 


HTTP 请 求 / HTTP 请 求 /应 答 


一 一 一 一 一 二 一 一 一 >| 

















图 4-1 通过 代理 服务 器 访问 Internet 上 的 Web 服 务 器 


由 图 4-1 可 见 ，wget 客 户 端 程序 和 代理 服务 器 之 间 ， 以 及 代理 服务 
器 与 Web 服 务 器 之 间 都 是 使 用 HTTP 协 议 通信 的 。HTTP 协 议 是 一 种 应 用 
层 协议 ， 它 默认 使 用 的 传输 层 协议 是 TCP 协 议 。 我 们 将 在 后 文中 简单 讨 
论 HTTP 协 议 。 


为 了 将 ernest-laptop 设 置 为 Kongming20 的 HTTP 代理 服务 器 ， 我 们 需 


要 在 Kongming20 上 设置 环境 变量 http_proxy: 





$export http proxy="ernest-laptop:3128"# 在 Kongming20 上 执行 





其 中 ，3128 是 squid 服 务 器 默认 使 用 的 端口 号 (可 以 通过 lsof 命 令 查 
看 服务 器 程序 监听 的 端口 号 ， 见 第 17 章 ) 。 设 置 好 环境 变量 之 后 ， 
Kongming20 访 问 任何 Internet 上 的 Web 服 务 器 时 ， 其 HTTP 请 求 都 将 首先 
发 送 至 ernest-laptop 的 3128 端 口 。 


squid 代 理 服务 器 接收 到 wget 客 户 端的 HTTP 请 求 之 后 ， 将 简单 地 修 
改 这 个 请 求 ， 然 后 把 它 发 送 给 最 终 的 目标 Web 服 务 器 。 既 然 代理 服务 器 
访问 的 是 Internet 上 的 机 器 ， 可 以 预见 它 发 送 的 IP 数 据 报 都 将 经 过 路 由 器 
的 中 转 ， 这 一 点 也 体现 在 图 4-1 中 了 。 


4.2 ”部 车 代 理 服务 右 


由 于 通信 实例 中 使 用 了 了 HTTP 代理 服务 器 〈squid 程 序 ) ， 所 以 先 简 
单 介 绍 一 下 HTTP 代 理 服务 器 的 工作 原理 ， 以 及 如 何 部 署 squid 代 理 服务 


已 局 


了 To 


4.2.1 HTTP 代 理 服务 器 的 工作 原理 





在 HTTP 通 信和 链 上 ， 客 户 端 和 目标 服务 器 之 间 通 常 存在 某 些 中 转 代 
理 服务 器 ， 它 们 提供 对 目标 资源 的 中 转 访 问 。 一 个 HTTP 请求 可 能 被 多 
个 代理 服务 器 转发 ， 后 面 的 服务 器 称 为 前 面 服务 器 的 上 游 服 务 器 。 代 理 
服务 器 按照 其 使 用 方式 和 作用 ， 分 为 正 同 代理 服务 器 、 反 疝 代 理 服 务 器 
和 透明 代理 服务 器 。 


正 向 代理 要 求 客户 端 自 己 设置 代理 服务 器 的 地 址 。 客 户 的 每 次 请 求 
都 将 直接 发 送 到 该 代理 服务 器 ， 并 由 代理 服务 需 来 请 求 目 标 资源 。 比 如 
处 于 防火 墙 内 的 局 域 网 机 器 要 访问 Internet， 或 者 要 访问 一 些 被 屏蔽 掉 的 
国外 网 站 ， 就 需要 使 用 正 同 代理 服务 器 。 


反 回 代理 则 被 设置 在 服务 器 端 ， 因 而 客户 端 无 顷 进 行 任 何 设置 。 反 
向 代理 是 指 用 代理 服务 器 来 接收 Internet 上 的 连接 请 求 ， 然 后 将 请 求 转 发 
给 内 部 网 络 上 的 服务 器 ， 并 将 从 内 部 服务 右上 得 到 的 结果 返回 给 客户 





端 。 这 种 情况 下 ， 代 理 服务 器 对 外 就 表现 为 一 个 真实 的 服务 器 。 各 大 网 
站 通 癌 分 区 域 设置 了 多 个 代理 服务 器 ， 所 以 在 不 同 的 地 方 ping 同 一 个 域 
名 可 能 得 到 不 同 的 人 P 地 址 ， 因 为 这 些 IP 地 址 实际 上 是 代理 服务 占 的 IP 地 
址 。 图 4-2 显 示 了 正 癌 代理 服务 右 和 反 回 代理 服务 器 在 HTTP 通信 链 上 的 
逻辑 位 置 。 








图 4-2 中 ， 正 向 代理 服务 器 和 客户 端 主 机 处 于 同一 个 逻辑 网 络 中 。 
该 逻辑 网 络 可 以 是 一 个 本 地 LAN， 也 可 以 是 一 个 更 大 的 网 络 。 反 向 代理 
服务 器 和 真正 的 Web 服 务 器 也 位 于 同一 个 逻辑 网 络 中 ， 这 通常 由 提供 网 
站 的 公司 来 配置 和 管理 。 





罗 辑 上 的 内 部 网 络 
逻辑 上 的 内 部 网 络 服务 器 A 
反 向 代理 
正 向 代理 因特网 服务 给 


客户 端 -一 服务 器 











服务 器 B 








图 4-2 HTIP 通 信和 链 上 的 代理 服务 器 


透明 代理 只 能 设置 在 网 关上。 用 户 访问 Internet 的 数据 报 必然 都 经 过 
网 关 ， 如 果 在 网 关上 设置 代理 ， 则 该 代理 对 用 户 来 说 显然 是 透明 的 。 透 
明代 理 可 以 看 作 正 向 代理 的 一 种 特殊 情况 。 


代理 服务 器 通常 还 提供 缓存 目标 资源 的 功能 (可 选 ) ， 这 样 用 户 下 


次 访问 同一 资源 时 速度 将 很 快 。 优 秀 的 开源 软件 squid、varnish 都 是 提供 
了 绥 存 能 力 的 代理 服务 器 软件 ， 其 中 squid 文 持 所 有 代理 方式 ， 而 varnish 
仅 能 用 作 反 同人 代理。 


4.2.2 ”部 署 squid 代 理 服务 器 





现在 我 们 在 ernest-laptop 上 部 署 squid 代 理 服务 器 。 这 个 过 程 很 简 
单 ， 只 需 修 改 squid 服 务 器 的 配置 文件 /etc/squid3/squid.conf， 在 其 中 加 入 
如 下 两 行 代码 (需要 root 权 限 ， 且 应 该 加 在 合适 的 位 置 ， 详 情 可 参考 其 
他 类 似 条 目的 设置 ) : 








acl localnet src 192.168.1.0/24 
http access allow localnet 








这 两 行 代码 的 含义 是 : 允许 网 络 192.168.1.0 上 的 所 有 机 器 通过 该 代 
理 服务 器 来 访问 Web 服 务 嚣 。 其 中 ,，“192.168.1.0/24” 是 CIDR (Classless 
Inter-Domain Routing， 无 类 域 间 路 由 ) 风格 的 耳 地 址 表示 方法 :“/ 前 的 
部 分 指定 网 络 的 IP 地 址 ，“/* 后 的 部 分 则 指定 子 网 掩 码 中 “1” 的 位 数 。 对 
IPV4 而 言 ， 上 述 表 示 等 价 于 “192.168.1.0/255.255.255.0”(IP 地 址 / 子 网 掩 
码 ) 。 





我 们 通过 上 面 的 两 行 代码 简单 地 配置 了 squid 的 访问 控制 。 但 实际 应 
用 中 ，squid 提 供 更 多 、 更 安全 的 配置 ， 比 如 用 户 验证 等 。 


接 下 来 在 ernest-laptop 上 执行 如 下 命令 ， 以 重启 squid 服 务 器 : 





$sudo service squid3 restart 
*Restarting Squid HTTP Proxy 3.0 squid3[OK] 





service 是 一 个 脚本 程序 (/usr/sbin/service〉， 它 为 /etc/init.d/ 目 录 下 
的 众多 服务 器 程序 〈 比 如 httpd、vsftpd、sshd 和 mysqld 等 ) 的 启动 
Cstart) 、 停 止 〈stop) 和 重启 〈restart) 等 动作 提供 了 一 个 统一 的 管 
理 。 现 在 ，Linux 程 序 员 已 经 越 来 越 俩 向 于 使 用 service 脚 本 来 管理 服务 
器 程序 了 。 


4.3 ”使 用 tcpdump 抓 取 传 输 数据 包 


在 执行 wget 命 令 前 ， 我 们 首先 应 删除 ernest-laptop 的 ARP 高 速 缓存 中 
路 由 器 对 应 的 项 ， 以 便 观察 TCP/IP 通 信 过 程 中 ARP 协 议 何 时 起 作用 。 然 
后 ， 使 用 tcpdump 命 令 抓 取 整 个 通信 过 程 中 传输 的 数据 包 。 完 整 的 操作 
过 程 如 代码 清单 4-1 所 示 。 


代码 清单 4-1 使 用 wget 抓 取 网 页 





$sudo arp-d 192.168.1.1 

$sudo tcpdump-s 2000-i eth0-ntx' (src 192.168.1.108)orl(dst 
192.168.1.108)06r (arpy 1 

$swget--header="Connection:close"http://www.baidu.com/index.html 

--2012-07-03 00:51:12--http://www.baidu.com/index.html 

Resolving ernest-laptop...192.168.1.108 

Connecting to ernest-laptop|192.168.1.108|:3128...connected. 

Proxy request sent,awaiting response...200 OK 

Length:8024(7.8K) [text/html] 

Saving to:“index.html” 

100%[ >]8,024--.-K/s in 0.001s 

2012-07-03 00:51:12(8.76 MB/s)-“index.html”saved[8024/8024] 












































wget 命 令 的 输出 显示 ，HTTP 请 求 确 实 是 先 被 送 至 代理 服务 器 的 
3128 端 口 ， 并 且 代 理 服务 器 正确 地 返回 了 文件 index.html 的 内 容 。 


这 次 通信 的 完整 ktpdump 输 出 内 容 如 代码 清单 4-2 所 示 。 


代码 清单 4-2 访问 Intemet 上 的 Web 服 务 器 




















ags[S],seq 


ags[S.],seq 






































ags[.],ack 1,1length 




















ags[P.],seq 








ags[.],ack 






























































































































































10+A?www .baidu.com. 








10 3/4/0 CNAME 
(162) 
ags[S],seq 
ags[S.],seq 
ags[.],ack 1,1length 
ags[P.],seq 


ags[.],ack 


ags[P.],seq 





ags[.],ack 
ags[.],seq 
ags[.],ack 
ags[.],seq 
ags[.],ack 


ags[P.],seq 





ags[.],ack 


:Flags[.],seq 


:Flags[P.],seqg 


1 ,IP'102.168,.1.109.40988>192.168.1.108.31287E) 
227192137,1length 0 

2.IP 192.168.1.108.3128>192.168.1.109.40988 :FL 
1084588508,ack 227192138,lengthn 0 

321P 1902.1068s1.109,.40988.~>192,168.,1,108.3128:F] 
0 

在 
1:137,ack 1,length 136 

5.IP 192.168.1.108.3128 二 192.168.1.109.40988:F1 
137,1length 0 

6.ARP,Request who-has 192.168.1.1 tell 192.168.1.108,length 28 

7.ARP,Reply 192.168.1.1 is-at 14:e6:e4:93:5b:78,1length 46 

8 LP L92168;1, 108.46149 “219.23926,.42,.、5375941 
(31) 

9.IP 219.239.26.42.53> 字 192.168.1.108.46149:594 
www.a.shifen.com.,A 119.75.218.77,A 119.75.217.56 

LO0sTP 192 L681,108.34538>119.795.5218:77:80E1 
1084002207,1length 0 

LT L909 T5210 3113002>L90201680 .15108.34539%F1 
4261071806,ack 1084002208,1length 0 

二 L902,. 1608 TL.108 .04530 .2119. 75.218.777800%F1 
0 

上 人 有 
1:226,ack 1,length 225 

4 TP TQ T7520 77 0 L192, L601 100. 345382E1 
226,length 0 

15.IP 119.75.218.77.80>>192.168.1.108.34538 :FI 
1:380,ack 226,1length 379 

LOLP T9022. 168 L108.34538 > 19 50.2218 77803T1 
380, length 0 

IIE T1975.218,770.802192.160.1 .108.34538:F1 
380:1820,ack 226,length 1440 

L851TP 102 168:.15108:349538>119,75.21877:803F1 
1820, length 0 

T1911B L100210.775802102, 168 L3108 .34539%F1 
1820:3260,ack 226,length 1440 

20 1B"1902 :108 T10834538 T1905. 218 7 80] 
3260, length 0 

LLP LGD ol 777 00 T9022 oT T083453071 
3260:4700,ack 226,length 1440 

2 LB 92 L080.34530021lL9. 702 ZT B03 
4700, length 0 

23. LP L9208 LT 08. 3268062192 1698.1.109.40988 
1:1449,ack 137,length 1448 

24.. LE L92408 dU08 .33202192 169801. 109540988 
1449:2166,ack 137,1length 717 





20ud TOR el60sd 


ZL166%3 












































.108.3128>192.168.1.109.40988 








614,ack 137,length 1448 











:Flags[.],seq 





26.1B 119.75.218777 .800192.168.1.-108.34538:F1lagsl.]y Segq 
4700:6140,ack 226,length 1440 
21sLb 902.168 121100834538~119,575 ,218,77.80*FJagsSls Be 
6140,length 0 
28,.1P 119;755218,.77:80>102.16983 1 10834538vFJagsls |] /Seq 
6140:7580,ack 226,length 1440 
20.TP 192. T1680, LT. 108.345386221L19.75,.21877.80rElAGSI.. |yack 
7580, length 0 
30.IP 119.75.218.77.80 二 192.168.1.108.34538:Flags[FP.],seq 
71580:8404,ack 226,length 824 








































































































































































































31T LTP 工 982168 L108 345398>119,.75.218. 7177 808071agS[lF. |ySsedq -2267 ack 
8405, length 0 

2 了 L192.6168.175109.40988>192,.168.,1 .4008x3128-F1a98[.] yaek 
1449,length 0 

331P 192.168,15108.3128 写 192.168%1.109,409881:Flagsl[ lyseq 
3614:6510,ack 137,length 2896 

34x:IP 192.168,1;109.40988 之 192,.168.1:108;3128+:Flags [|] yack 
2166,length 0 

35 .TIE T1902.168;,1.108,3128>192,168,1,109,40988sPlagsl[, SG 
6510:7958,ack 137,length 1448 

361IP 192;,168.1.108,3128>192,.168,1,109.40988sFPlags[lEP.],Seq 
71958:8523,ack 137,1length 565 

37%.1P 192,.168. L109.409886 .>192,108,.1.108.3128T1lagsl. 1] yaok 
3614,1length 0 

38.1P 192,.168,.1.109.40988 2192,168,.1.108,、 3128%FT1lagsl. 1] ,ok 
5062, length 0 

30.1P L192.J68 L109.40988>192.168.,..1 .108,.31287Flags |. ] ya 
6510, length 0 

40.TP T92168.1.109.540988 733192.168,.1,.108.31287Flaggst. ] yack 
7958, length 0 

41 .TP 119.75.218,770802192.1680.1.108.34538:F1lagsl.];ack 
227,length 0 

42.1P 192.168.1.109.40988 宝 192.168.1.108,3128:FlagslF:] yseq 
137,ack 8524,1length 0 

43.TP 1902.168.1.108.3128.>7192.168.1、,109%40988;Flagsls lyack 
138,length 0 








我 们 一 共 抓 取 了 43 个 数据 包 。 与 前 面 章节 的 讨论 不 同 ， 这 些 数据 包 
不 是 一 对 客户 端 和 服务 器 之 间 交 换 的 内 容 ， 而 是 两 对 客户 端 和 服务 器 
Cwget 客 户 跨 和 代理 服务 器 ， 以 及 代理 服务 硕 和 目标 Web 服 务 器 ) 之 间 
通信 的 全 部 内 容 。 所 以 ，tcpdump 的 输出 把 这 两 组 通信 的 内 容 交 织 在 一 


起 。 但 为 了 讨论 问题 的 方便 ， 我 们 将 这 43 个 数据 包 按 照 其 逻辑 关系 分 为 
如 下 4 个 部 分 : 


口 代理 服务 器 访问 DNS 服务 器 以 查询 域名 www.baidu.com 对 应 的 卫 
地 址 ， 包 括 数据 包 8、9。 


口 代理 服务 器 查询 路 由 器 MAC 地 址 的 ARP 请 求 和 应 答 ， 包 括 数据 
包 6、7。 


口 wget 客 户 端 〈192.168.1.109) 和 代理 服务 器 (192.168.1.108) 之 
间 的 HITP 通 信 ， 包 括 数据 包 1~5、23 一 25、32 一 40、42 和 43。 


口 代理 服务 器 和 Web 服 务 器 (119.75.218.77) 之 间 的 HTTP 通 信 ， 包 
括 数 据 包 10 一 22、26 一 31 和 41。 





下 面 我 们 将 依次 讨论 前 3 个 部 分 ， 第 4 个 部 分 与 第 3 个 部 分 的 内 容 基 


本 相似 ， 不 再 袭 述 。 


4.4 访问 DNS 服务 器 


数据 包 8、9 表 示 代 理 服 务 器 ernest-laptop 向 DNS 服务 器 
《219.239.26.42， 首 选 DNS 服务 器 的 了 P 地 址 ， 见 1.6.2 节 ) 查询 域名 
www.baidu.com 对 应 的 IP 地 址 ， 并 得 到 了 回复 。 该 回复 包括 一 个 主机 别 
名 (www.a.shifen.com) 和 两 个 IP 地 址 (119.75.218.77 和 
119.75.217.56) 。 代 理 服务 器 执行 DNS 查 询 的 完整 过 程 如 图 4-3 所 示 。 


















219.239.26.42 


读 取 /etc/resolv.conf， 获 squid 代 理 
取 DNS 服 务 器 的 IP 地 址 服务 器 


UDP 模块 将 目标 端口 号 53 和 源 端 
口号 46149 加 入 UDP 数据 报头 部 










219.239.26.42 

耳 模 块 将 源 下 地 址 和 DNS 服务 器 的 
IP 地 址 加 入 IP 头 部 

192.168.1.1 


驱动 程序 将 路 由 器 的 MAC 
地 址 加 入 以 太 网 帧 头 部 


| ARP 广 播 ， 查 询 
! ”192.169.1.1 的 MAC 地 址 


以 太 网 


FE 4 ~ TTY hs 


图 4-3 DNS 查询 


squid 程 序 通过 读 取 /etc/resolv.conf 文 件 获得 DNS 服务 器 的 耳 地 址 

〈 见 1.6.2 节 ) ， 然 后 将 控制 权 传 递 给 内 核 中 的 UDP 模块 。UDP 模 块 将 
DNS 碍 询 报 文 封 装 成 UDP 数据 报 ， 同 时 把 源 端口 号 和 目标 端口 号 加 入 
UDP 数据 报头 部 ， 然 后 UDP 模块 调用 了 服务 。 卫 模块 则 将 UDP 数据 报 封 
装 成 IP 数 据 报 ， 并 把 源 端 TP 地 址 (192.168.1.108〉 和 DNS 服务 器 的 了 地 
址 加 入 IP 数 据 报头 部 。 接 下 来 ，IP 模 块 查 询 路 由 表 以 决定 如 何 发 送 该 IP 
数据 报 。 根 据 路 由 策略 ， 目 标 IP 地 址 (219.239.26.42) 仅 能 匹配 路 由 表 
中 的 默认 路 由 项 ， 因 此 该 IP 数 据 报 先 被 发 送 至 路 由 器 (IP 地 址 为 
192.168.1.1) ， 然 后 通过 路 由 器 来 转发 。 因 为 emest-laptop 的 ARP 绥 存 中 





没有 与 路 由 器 对 应 的 缓存 项 〈 我 们 手动 将 其 删除 了 ) ， 所 以 ernest- 
laptop 需 要 发 起 一 个 ARP 广 播 以 查询 路 由 器 的 耳 地 址 ， 而 这 正 是 数据 包 6 
描述 的 内 容 。 路 由 器 则 通过 ARP 应 答 告 诉 ernest-laptop 自 己 的 MAC 地 址 
是 14:e6:e4:93:5b:78， 如 数据 包 7 所 示 。 最 终 ， 以 太 网 驱动 程序 将 IP 数 据 
报 封装 成 以 太 网 帧 发 送 给 路 由 器 。 此 后 ， 代 理 服务 器 再 次 发 送 数据 到 
Internet 时 将 不 再 需要 ARP 碍 询 ， 因 为 ernest-laptop 的 ARP 高 速 缓存 中 已 
经 记录 了 路 由 器 的 了 地址 和 MAC 地 址 的 映射 关系 。 





需要 指出 的 是 ， 虽 然 卫 数据 报 是 先 发 送 到 路 由 器 ， 再 由 它 转发 给 目 
标 主机 ， 但 是 其 头 部 的 目标 耳 地 址 却 是 最 终 的 目标 主机 (DNS 服务 器 ) 
的 IP 地 址 ， 而 不 是 中 转 路 由 器 的 IP 地 址 〈192.168.1.1) 。 这 说 明 ，IP 头 
部 的 源 并 P 地 址 和 目的 端 IP 地 址 在 转发 过 程 中 是 始终 不 变 的 (一 种 例外 
是 源 路 由 选择 ) 。 但 帧 头 部 的 源 端 物理 地 址 和 目的 端 物理 地 址 在 转发 过 
程 中 则 是 一 直 在 变化 的 。 





4.5 ”本 地 名 称 查 询 


一 般 来 说 ， 通 过 域名 来 访问 Internet 上 的 某 台 主机 时 ， 需 要 使 用 DNS 
服务 来 获取 该 主机 的 IP 地 址 。 但 如 果 我 们 通过 主机 名 来 访问 本 地 局 域 网 
上 的 机 器 ， 则 可 通过 本 地 的 静态 文件 来 获得 该 机 器 的 IP 地 址 。 





Linux 将 目标 主机 名 及 其 对 应 的 IP 地 址 存储 在 /etc/hosts 配 置 文件 中 。 
当 需 要 查询 某 个 主机 名 对 应 的 IP 地 址 时 ， 程 序 将 首先 检查 这 个 文件 。 
Kongming20 上 /etc/hosts 文 件 的 内 容 如 下 笔者 手动 修改 过 ) 


























127.0.0.1 localhost 
192.168.1.109 Kongming20 
192.168.1.108 ernest-laptop 











其 中 第 一 项 指出 本 地 回路 地 址 127.0.0.1 的 名 称 是 localhost， 第 二 项 
和 第 三 项 则 分 别 描述 了 Kongming20 和 ernest-laptop 的 IP 地 址 及 对 应 的 主 
机 名 。 


代码 清单 4-1 中 ，wget 命 令 输出 “Resolving ernest- 
laptop...192.168.1.108”， 即 它 成 功 地 解析 了 主机 名 ernest-laptop 对 应 的 IP 
地 址 ， 原 因 如 下 : 当 wget 访 问 某 个 Web 服 务 器 时 ， 它 先 读 取 环境 变量 
http_proxy。 如 果 该 环境 变量 被 设置 ， 并 且 我 们 没有 阻止 wget 使 用 代理 
服务 ， 则 wget 将 通过 http_proxy 指 定 的 代理 服务 器 来 访问 Web 服 务 。 但 


http_proxy 环 境 变量 中 包含 主机 名 ernest-laptop， 因 此 wget 将 首先 读 
取 /etc/hosts 配 置 文件 ， 试 图 通过 它 来 解析 主机 名 ernest-laptop 对 应 的 卫 地 
址 。 其 结果 正如 wget 的 输出 所 示 ， 解 析 成 功 。 


如 果 程 序 在 /etc/hosts 文 件 中 未 找到 目标 机 器 名 对 应 的 IP 地 址 ， 它 将 
求助 于 DNS 服务 。 


用 户 可 以 通过 修改 /etchost.conf 文 件 来 自 定 义 系统 解析 主机 名 的 方 
法 和 顺序 “〈 一 般 是 先 访 问 本 地 文件 /etchosts， 再 访问 DNS 服务 ) ， 
Kongming20 上 的 该 文件 内 容 如 下 : 


order hosts,bind 
multi on 





其 中 第 一 行 表示 优先 使 用 /etc/hosts 文 件 来 解析 主机 名 (hosts) ， 失 
败 后 再 使 用 DNS 服务 (bind) 。 第 二 行 表示 如 果 /etc/hosts 文 件 中 一 个 主 
机 名 对 应 多 个 IP 地 址 ， 那 么 解析 的 结果 就 包含 多 个 JP 地 址 。/etc/host.conf 
文件 通常 仅 包含 这 两 行 ， 但 它 支 持 更 多 选项 ， 具 体 使 用 请 参考 其 man 手 
册 。 


标准 文档 RFC 1123 指 出 ， 网 络 上 的 主机 都 应 该 实现 一 个 简单 的 本 地 
名 称 人 查询 服务 。 


4.6 HTTP 通信 


为 了 方便 讨论 ， 我 们 将 wget 客 户 端 和 代理 服务 器 之 间 的 通信 过 程 画 
成 图 4-4 所 示 的 TCP 时 序 图 。 


192.168.1.109.40988 192.168.1.108.3128 


seq 227192137 (SYN) 





seq 1084588508, ack 227192138 (SYN) 7 
3 
4 Seq 1:37, ack 1 
ack 137 5 
seq 1:1449, ack 137 3 
seq 1449:2166, ack 137 24 
seq 2166:3614, ack 137 25 
32 ack 1449 
seq 3614:6510, ack 137 33 
seq 6510:7958, ack 137 35 
seq 7958:8523, ack 137 (FIN) $6 
| 
38 I 
se 
40 i 
42 seq 137, ack 8524 (FIN) 
| 人 


~ 


图 4-4 wget 客户 端 和 squid 服 务 器 之 间 的 TCP 通 信 


首先 应 该 注意 的 是 ，TCP 连 接 从 建立 到 关闭 的 过 程 中 ， 客 户 端 仅 给 
服务 器 发 送 了 一 个 HITP 请 求 〈 即 TCP 报 文 段 4) ， 该 请 求 的 长 度 为 136 
字 节 【〈 见 代码 清单 4-2 中 TCP 报 文 段 4 的 length 值 ) 。 代 理 服务 器 则 用 6 个 


TCP 报 文 段 (23、24、25、33、35 和 36) 给 客户 端 返 回 了 总 长 度 为 8522 
字 节 《这 可 以 从 对 方 的 最 后 一 个 确认 报 文 段 42 的 确认 值 计 算得 到 ， 考 虑 
同步 报 文 段 和 结束 报 文 段 各 占用 一 个 序号 ) 的 HITP 应 答 。 客 户 端 使 用 
了 7 个 TCP 报 文 段 (32、34、37、38、39、40 和 42) 来 确认 这 8522 字 节 
的 HITP 应 答 数据 。 


下 面 我 们 简单 分 析 一 下 这 136 字 节 的 HITP 请 求 和 8522 字 节 的 HTTP 
应 答 的 部 分 主要 内 容 (开启 tcpdump 的 -X 选 项 来 查看 )。 


4.6.1 HTTP 请 求 


HTTP 请 求 的 部 分 内 容 如 下 : 








GET http://www.baidu.com/index.html HTTP/1.0 
User-Agent :Wget/1.12 (linux-gnu) 
Host:www.baidu.com 

Connection:close 





第 1 行 是 请 求 行 。 其 中 “GET"” 是 请 求 方法 ， 表 示 客 户 端 以 只 读 的 方 
式 来 申请 资源 。 常 见 的 HTTP 请 求 方法 有 9 种 ， 如 表 4-1 所 示 。 


表 4-1 HTTP 请 求 方法 








请 求 方法 含义 
GET 申请 获取 资源 ， 而 不 对 服务 器 产生 任何 其 他 影响 
FE 和 GET 方法 类 似 ， 不 过 仅 要 求 服务 器 返回 头 部 信息 ， 而 不 需要 传输 任 
何 实际 内 容 
Rs 客户 端 向 服务 器 提交 数据 的 方法 。 这 种 方法 会 影响 服务 器 : 服务 器 可 能 
根据 收 到 的 数据 动态 创建 新 的 资源 ， 也 可 能 更 新 原 有 的 资源 
PUT 上 上传 某 个 资源 
DELETE 删除 某 个 资源 
i 要 求 目 标 服务 器 返回 原始 HTTP 请 求 的 内 容 。 它 可 用 来 查看 中 间 服 务 器 
(比如 代理 服务 器 ) 对 HTTP 请 求 的 影响 
查看 服务 器 对 某 个 特定 URL 都 支持 哪些 请 求 方法 。 也 可 以 把 URL 设置 
es 为 *， 从 而 获得 服务 器 支持 的 所 有 请 求 方法 
CONNECT 用 于 某 些 代理 服务 器 ， 它 们 能 把 请 求 的 连接 转化 为 一 个 安全 隧道 
PATCH 对 某 个 资源 做 部 分 修改 


这 些 方法 中 ，HEAD、GET、OPTIONS 和 TRACE 被 视 为 安全 的 方 


法 ， 因 为 它们 只 是 从 服务 器 获得 资源 或 信息 


恩 ， 而 不 对 服务 占 进 行 任何 修 


改 。 而 POST、PUT、DELETE 和 PATCH 则 影响 服务 器 上 的 资源 。 


另 一 方面 ，GET、HEAD、OPTIONS、TRACE、PUT 和 DELETE 等 
请 求 方法 被 认为 是 等 窜 的 (idempotent) ， 即 多 次 连续 的 、 重 复 的 请 求 
和 只 发 送 一 次 该 请 求 具 有 完全 相同 的 效果 。 而 POST 方法 则 不 同 ， 
多 次 发 送 同 样 一 个 请 求 可 能 进一步 影响 服务 器 上 的 资源 。 





值得 一 提 的 是 ，Linux 上 提供 了 几 个 命令 : HEAD、GET 和 POST。 
其 含义 基本 与 HITP 协 议 中 的 同名 请 求 方法 相同 。 它 们 适合 用 来 快速 测 


试 Web 服 务 器 。 


“http:/www. baidu.com/index.html” 古 


目标 资源 的 URL。 其 中 “http” 是 


所 谓 的 scheme， 表 示 获 取 目 标 资 源 需要 使 用 的 应 用 层 协议 。 其 他 常见 的 
scheme 还 有 ftp、rtsp 和 file 等 。“www.baidu.com” 指 定 资 源 所 在 的 目标 主 
机 。“index.html” 指 定 资 源 文件 的 名 称 ， 这 里 指 的 是 服务 器 根 目录 站 点 
的 根 目录 ， 而 不 是 服务 器 的 文件 系统 根 目 录 “/”) 中 的 索引 文件 。 





“HTTP/1. 0” 表 示 客 户 端 (wget 程 序 ) 使 用 的 HTTP 的 版 本 号 是 1.0。 
目前 的 主流 HTTP 版 本 是 1.1。 


HTTP 请 求 内 容 中 的 第 2 一 4 行 都 是 HITP 请 求 的 头 部 字段 。 一 
HTTP 请 求 可 以 包含 多 个 头 部 字段 。 一 个 头 部 字段 用 一 行 表 示 ， 包 含 字 
段 名 称 、 冒 号 、 空 格 和 字段 的 值 。HTTP 请 求 中 的 头 部 字段 可 按 任意 顺 
序 排列 。 








“User-Agent:Wget/1. 12(inux-gnu)” 表 示 客 户 端 使 用 的 程序 是 wget。 


“Host:www. baidu.com” 表 示 目 标 主 机 名 是 www.baidu.com。HTTP 协 
议 规 定 HITP 请 求 中 必须 包含 的 头 部 字段 就 是 目标 主机 名 。 


“Connection:close” 是 我 们 执行 wget 命 令 时 传 入 的 〈 见 代码 清单 4- 
1) ， 用 以 告诉 服务 器 处 理 完 这 个 HTTP 请 求 之 后 就 关闭 连接 。 在 旧 的 
HTTP 协 议 中 ，Web 客 户 端 和 Web 服 务 器 之 间 的 一 个 TCP 连 接 只 能 为 一 个 
HTTP 请 求 服务 。 当 处 理 完 客 户 的 一 个 HTTP 请 求 之 后 ，Web 服 务 器 就 
(主动 ) 将 TCP 连 接 关 闭 了 。 此 后 ， 同 一 客户 如 条 要 再 发 送 一 个 HTTP 
请 求 的 话 ， 必 须 与 服务 器 建立 一 个 新 的 TCP 连 接 。 也 就 是 说 ， 同 一 个 客 


户 的 多 个 连续 的 HITP 请 求 不 能 共用 同一 个 TCP 连 接 ， 这 称 为 短 连接 。 
长 连接 与 之 相反 ， 是 指 多 个 请 求 可 以 使 用 同一 个 TCP 连 接 。 长 连接 在 编 
程 上 稍微 复杂 一 些 ， 但 性 能 上 却 有 很 大 提高 ， 它 极 大 地 减少 了 网 络 上 为 
建立 TCP 连 接 导 致 的 负荷 ， 同 时 对 每 次 请 求 而 言 缩减 了 处 理 时 间 。 
HTTP 请 求 和 应 答 中 的 “Connection” 头 部 字段 就 是 专门 用 于 告诉 对 方 一 个 
请 求 完 成 之 后 该 如 何 处 理 连 接 的 ， 比 如 立即 关闭 连接 〈 该 头 部 字段 的 值 
为 “close”) 或 者 保持 一 段 时 间 以 等 待 后 续 请 求 〈 该 头 部 字段 的 值 

为 “keep-alive”) 。 当 用 浏览 器 访问 一 个 网 页 时 ， 读 者 不 妨 使 用 netstat 命 
令 来 查看 浏览 器 和 Web 服 务 器 之 间 的 连接 是 否 是 长 连接 ， 以 及 该 连接 维 
持 了 多 长 时 间 。 


























在 所 有 头 部 字段 之 后 ，HTTP 请 求 必 须 包 含 一 个 空 行 ， 以 标识 头 部 
字段 的 结束 。 请 求 行 和 每 个 头 部 字段 都 必须 以 CR> 过 LEF> 结 束 〈 回 
车 符 和 换行 符 ) ;而 空 行 则 必须 只 包含 一 个 <CR><LE>， 不 能 有 其 


他 字符 ， 甚 至 是 空白 字符 。 








在 空 行 之 后 ，HTTP 请 求 可 以 包含 可 选 的 消息 体 。 如 果 消 息 体 非 
空 ， 则 HTTP 请 求 的 头 部 字段 中 必须 包含 描述 该 消息 体 长 度 的 字 
段 “Content-Length”。 我 们 的 实例 只 是 获取 目标 服务 器 上 的 资源 ， 所 以 
没有 消 忆 体 。 


4.6.2 HTTP 应 答 


HTTP 应 答 的 部 分 内 容 如 下 : 





HTTP/1.0 200 OK 

Server:BWS/1.0 

Content-Length:8024 

Content-Type:text/html;charset=gbk 

Set= 
Cookie:BAIDUID=ASB6C72D68CF639CE8896FD79A03FBD8:FG=1;expires=Wed,04- 
Jul-42 00:10:47 GMT;path=/;domain=.baidu.com 

Via:1.0 localhost (squid/3.0 STABLE18) 



























































第 


一 行 是 状态 行 。“HTTP/1.0” 是 服务 器 使 用 的 HTTP 协 议 的 版 本 
写 。 通 第 ， 服 务 器 需要 使 用 和 客户 端 相 同 的 HTTP 协 议 版 本 。“200 

OK” 是 状态 码 和 状态 信息 。 常 见 的 状态 码 和 状态 信息 及 其 含义 如 表 4-2 
所 示 。 


表 4-2 HTTP 状态 码 和 状态 信息 及 其 含义 
状态 类 型 状态 码 和 状态 信息 含 义 


服务 器 收 到 了 客户 端的 请 求 行 和 头 部 信息 ， 告 诉 
> 客户 端 继 续 发 送 数 据 部 分 。 客 户 端 通常 要 先 发 送 
1xx 和 信息 100 Continue he Ee i dR 
Expect: 100-continue 头 部 字段 告诉 服务 器 自己 还 有 
数据 要 发 送 


2xx 成 功 200 OK 请 求 成 功 
301 Moved Permanently 资源 被 转移 了 ， 请 求 将 被 重 定向 


通知 客户 端 资源 能 在 其 他 地 方 找到 ， 但 需要 使 用 





本 GET 方法 来 获得 它 
3xx 重 定 问 304 Not Modified 表示 被 申请 的 资源 没有 更 新 ， 和 之 前 获得 的 相同 
通知 客户 端 资 源 能 在 其 他 地 方 找 到 。 与 302 不 同 
307 Temporary Redirect 的 是 ， 客 户 端 可 以 使 用 和 原始 请 求 相同 的 请 求 方法 





来 访问 目标 资源 
400 Bad Request 通用 客户 请 求 错误 
401 Unauthorized 请 求 需要 认证 信息 


i 访问 被 服务 器 禁止 ， 通 常 是 由 于 客户 端 没 有 权限 
4xx 客户 端 错误 403 Forbidden CR 
访问 该 资源 


次 浙 设 和 到 

客户 端 需要 先 获得 代理 服务 器 的 认证 
es 通用 服务 器 错误 

暂时 无 法 访问 服务 器 


第 2 一 7 行 是 HTTP 应 答 的 头 部 字段 。 其 表示 方法 与 HTTP 请 求 中 的 头 


部 字段 相同 。 


“Server:BWS/1. 0 表示 目 标 Web 服 务 器 程序 的 名 字 是 BWS (Baidu 
Web Server) 。 


“Content-Length:8024” 表 示 目 标 文 档 的 长 度 为 8024 字 节 。 这 个 值 和 
wget 输 出 的 文档 长 度 一 致 。 


“Content-Type:text/html;charset=gbk” 表 示 目 标 文档 的 MIME 类 型 。 
其 中 “text* 是 主 文档 类 型 ，“htm]* 是 子 文档 类 型 。“text/html”* 表 示 目 标 文 








档 index.html 是 text 类 型 中 的 html 文 档 。“charset” 是 text 文 档 类 型 的 一 个 参 
数 ， 用 于 指定 文档 的 字符 编码 。 


“Set- 
Cookie:BAIDUID=A5B6C72D68CF639CE8896FD79A03FBD8:FG=1;expin 
Jul-42 00:10:47 GMT;path=/;domain=. baidu.com” 表 示 服 务 器 传送 一 个 
Cookie 给 客户 端 。 其 中 ,，“BAIDUID” 指 定 Cookie 的 名 字 , “expires” 指 定 
Cookie 的 生存 时 间 , “domain” 和 “path” 指 定 该 Cookie 生 效 的 域名 和 路 
径 。 下 面 我 们 简单 分 析 一 下 Cookie 的 作用 。 


第 2 草 中 曾 提 到 ，HTTP 协 议 是 一 种 无 状态 的 协议 ， 即 每 个 HTTP 请 
求 之 间 没 有 任何 上 下 文 关系 。 如 果 服 务 器 处 理 后 续 HTTP 请 求 时 需要 用 
到 前 面 的 HITP 请 求 的 相关 信息 ， 客 户 端 必须 重 传 这 些 信 息 。 这 样 就 导 
致 HTTP 请 求 必须 传输 更 多 的 数据 。 








在 交互 式 Web 应 用 程序 兴起 之 后 ，HTTP 协 议 的 这 种 无 状态 特性 就 
显得 不 适应 了， 因为 交互 程序 通常 要 承上启下 。 因 此 ， 我 们 要 使 用 额外 
的 手段 来 保持 HTTP 连 接 状 态 ， 常 见 的 解决 方法 就 是 Cookie。Cookie 是 
服务 器 发 送 给 客户 端的 特殊 信息 (通过 HTTP 应 管 的 头 部 字段 “Set- 
Cookie”) ， 客 户 器 每 次 癌 服 务 器 发 送 请 求 的 时 候 都 需要 带 上 这 些 信息 
(通过 HTTP 请 求 的 头 部 字段 <Cookie”) 。 这 样 服务 器 就 可 以 区 分 不 同 
的 客 尸 了。 基于 浏览 右 的 自动 登录 束 是 用 Cookie 实 现 的 。 














“Via:1. 0 localhost(squid/3.0 STABLE18)” 表 示 HTTP 应 答 在 返回 过 程 
中 经 历 过 的 所 有 代理 服务 器 的 地 址 和 名 称 。 这 里 的 localhost 实 际 上 指 的 
是 “192.168.1.108”。 这 个 头 部 字段 的 功能 有 点 类 似 于 了 协议 的 记录 路 由 





在 所 有 头 部 字段 之 后 ，HTTP 应 答 必 须 包 含 一 个 空 行 ， 以 标识 头 部 
字段 的 结束 。 状 态 行 和 每 个 头 部 字段 都 必须 以 和 CR> 二 LE> 结 束 ; 而 


空 行 则 必须 只 包含 一 个 <CR> <LF>>， 不 能 有 其 他 字符 ， 其 至 是 空 


空 行 之 后 是 被 请 求 文档 index.html 的 内 容 (当然 ， 我 们 并 不 关心 


它 ) ， 其 长 度 是 8024 字 节 。 


4.7 ”实例 总 结 


至 此 ， 我 们 成 功 地 访问 了 Internet 上 的 Web 服 务 器 ， 通 过 该 实例 ， 我 
们 分 析 了 TCP/IP 协 议 族 各 层 的 部 分 协议 : 应 用 层 的 HTTP 和 DNS、 传 输 
层 的 TCP 和 UDP、 网 络 层 的 PP、 数据 链 路 层 的 ARP， 以 及 它们 之 间 是 如 
何 协作 来 完成 网 络 通信 的 。 我 们 的 分 析 方 法 是 使 用 tcpdump 抓 包 ， 然 后 
观察 各 层 协议 的 头 部 内 容 以 推断 其 工作 原理 。 在 后 续 章 节 中 ， 我 们 还 将 
多 次 使 用 这 种 方法 来 分 析 问 题 。 
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第 5 和 章 ”Linux 网 络 编程 基础 API 





本 章 是 承 前 局 后 的 一 章 。 它 探讨 Linux 网 络 编程 基础 API 与 内 核 中 
TCP/IP 协 议 族 之 间 的 关系， 并 为 后 续 章 市 提供 编程 基础 。 我 们 将 从 如 下 


3 个 方面 讨论 Linux 网 络 API: 





Dsocket 地 址 API。socket 最 开始 的 含义 是 一 个 IP 地 址 和 端口 对 
(ip，port〉。 它 唯一 地 表示 了 使 用 TCP 通 信和 的 一 端 。 本 书 称 其 为 socket 
地 址 。 


口 socket 基 础 API。socket 的 主要 API 都 定义 在 sys/socket.h 头 文件 中 ， 
包括 创建 socket、 命 名 socket、 监 听 socket、 接 受 连 接 、 发 起 连接 、 读 写 
数据 、 获 取 地 址 信息 、 检 测 带 外 标记 ， 以 及 读 取 和 设置 socket 选 项 。 





口 网 络 信息 API。Linux 提 供 了 一 套 网 络 信息 API， 以 实现 主机 名 和 
IP 地 址 之 间 的 转换 ， 以 及 服务 名 称 和 端口 号 之 间 的 转换 。 这 些 API 都 定 
义 在 netdb.h 头 文件 中 ， 我 们 将 讨论 其 中 几 个 主要 的 函数 。 


5.1 socket 地 址 API 


要 学 习 socket 地 址 API， 先 要 理解 主机 字 节 序 和 网 络 字 节 序 。 


5.1.1 主机 字 节 序 和 网 络 字 节 序 


现代 CPU 的 累加 器 一 次 都 能 装载 〈 至 少 ) 4 字 节 《这 里 考虑 32 位 

机 ， 下 同 ) ， 即 一 个 整数 。 那 么 这 4 字 节 在 内 存 中 排列 的 顺序 将 影响 它 
被 累加 器 装载 成 的 整数 的 值 。 这 就 是 字 节 序 问题 。 字 节 序 分 为 大 端 字 节 
序 (big endian〉 和 小 端 字 节 序 (ittle endian) 。 大 端 字 节 序 是 指 一 个 整 
数 的 高 位 字 节 〈23 一 31 bit) 存储 在 内 存 的 低地 址 处 ， 低 位 字 节 《0 一 7 
bit) 存储 在 内 存 的 高 地 址 处 。 小 端 字 节 序 则 是 指 整数 的 高 位 字 节 存储 在 
内 存 的 高 地 址 处 ， 而 低位 字 节 则 存储 在 内 存 的 低地 址 处 。 代 码 清单 5-1 
可 用 于 检查 机 器 的 字 节 序 。 























代码 清单 5-1 判断 机 器 字 节 序 





#include=stdio.h> 

void byteorder() 

{ 

union 

{ 

short value; 

char union bytes[sizeof (short)]; 
}test; 
test.value=0x0102; 
if((test.union bytes[0]==1)&& (test.union bytes [1]==2) ) 
{ 
printf ("big endian\n™"); 

} 

else if((test.union bytes[0]==2) && (test.union bytes[1]==1)) 
{ 

printf ("little endian\n"); 

} 

else 

{ 


printf ("unknown...\n"); 






































现代 PC 大 多 采用 小 端 字 节 序 ， 因 此 小 端 字 节 序 叉 被 称 为 主机 字 节 
序 。 


当 格 式 化 的 数据 《比如 32 bit 整 型 数 和 16 bit 短 整 型 数 ) 在 两 台 使 用 
不 同 字 节 序 的 主机 之 间 直 接 传 递 时 ， 接 收 端 必然 错误 地 解释 之 。 解 决 问 
题 的 方法 是 : 发 送 端 总 是 把 要 发 送 的 数据 转化 成 大 端 字 节 序 数据 后 再 发 
送 ， 而 接收 端 知道 对 方 传送 过 来 的 数据 总 是 采用 大 端 字 节 序 ， 所 以 接收 
端 可 以 根据 自 映 采用 的 字 节 序 决定 是 否 对 接收 到 的 数据 进行 转换 (小 端 
机 转换 ， 大 端 机 不 转换 ) 。 因 此 大 端 字 节 序 也 称 为 网 络 字 节 序 ， 它 给 所 
有 接收 数据 的 主机 提供 了 一 个 正确 解释 收 到 的 格式 化 数据 的 保证 。 





需要 指出 的 是 ， 即 使 是 同一 台 机 器 上 的 两 个 进程 (比如 一 个 由 C 语 
言 编写 ， 另 一 个 由 JAVA 编写 ) 通信 ， 也 要 考虑 字 节 序 的 问题 (JAVA 虚 
拟 机 采用 大 端 字 节 序 ) 。 








Linux 提 供 了 如 下 4 个 函数 来 完成 主机 字 节 序 和 网 络 字 节 序 之 间 的 转 
换 : 


#include<netinet/in.nh> 

unsigned long int htonl (unsigned long int hostlong); 
unsigned short int htons (unsigned Short int hostshort); 
unsigned long int ntohl (unsigned long int netlong); 
unsigned short int ntohs (unsigned Short int netshort);} 





















































它们 的 含义 很 明确 ， 比 如 htonl 表 示 “host to network long”， 即 将 长 整 
型 (32 bit) 的 主机 字 节 序数 据 转 化 为 网 络 字 节 序 数据 。 这 4 个 函数 中 ， 
长 整 型 函数 通常 用 来 转换 IP 地 址 ， 短 整 型 函数 用 来 转换 病 口 号 (当然 不 
限于 此 。 任 何 格 式 化 的 数据 通过 网 络 传 输 时 ， 都 应 该 使 用 这 些 函 数 来 转 
换 字 贡 序 ) 。 


5.1.2 ”通用 socket 地 址 





socket 网 络 编程 接口 中 表示 socket 地 址 的 是 结构 体 sockaddr， 其 定义 
如 下 : 





#include<bits/socket.h> 
struct sockaddr 

{ 
sa family t sa family; 
char sa datall1l4]; 


} 

















sa_family 成 员 是 地 址 族 类 型 (sa_family_t) 的 变量 。 地 址 族 类 型 通 
党 与 协议 族 类 型 对 应 。 常 见 的 协议 族 (protocol family， 也 称 domain， 见 
后 文 ) 和 对 应 的 地 址 族 如 表 5-1 所 示 。 


表 5-1 协议 族 和 地 址 族 的 关系 


协议 族 地 址 族 描 述 


PF_INET AF_INET TCP/TPv4 协议 族 
PF_INET6 AF INET6 TCP/IPV6 协议 族 





宏 PF_* 和 AF _* 都 定义 在 bits/socket.h 头 文件 中 ， 且 后 者 与 前 者 有 完 
全 相同 的 值 ， 所 以 二 者 通常 混用 。 


sa_data 成 员 用 于 存放 socket 地 址 值 。 但 是 ， 不 同 的 协议 族 的 地 址 值 
具有 不 同 的 含义 和 长 度 ， 如 表 5-2 所 示 。 


表 5-2 协议 族 及 其 地 址 值 








协议 族 地 址 值 含义 和 长 度 

PF_UNIX 文件 的 路 径 名 ， 长 度 可 达到 108 字 节 ( 见 后 文 ) 

PF_INET 16 bit 端口 号 和 32 bit IPv4 地 址 ， 共 6 字 节 

ee 16 bit 端口 号 ，32 bit 流标 识 ，128 bit IPv6 地 址 ，32 bit 范围 ID， 





共 26 字 节 


由 表 5-2 可 见 ，14 字 节 的 sa_data 根 本 无 法 完全 容纳 多 数 协 议 族 的 地 
址 值 。 因 此 ，Linux 定 义 了 下 面 这 个 新 的 通用 socket 地 址 结构 体 : 





#include<bits/socket .n> 
struct sockaddr storage 
{ 
sa family t sa family; 

unsigned long int ss align; 

char ss padding[128-sizeof( ss align)]; 
} 

















这 个 结构 体 不 仅 提供 了 足够 大 的 空间 用 于 存放 地 址 值 ， 而 且 是 内 存 
对 齐 的 〈 这 是 _ss_align 成 员 的 作用 ) 。 


5.1.3 ”专用 socket 地 址 


上 面 这 两 个 通用 socket 地 址 结构 体 显然 很 不 好 用 ， 比 如 设置 与 获取 





PP 地 址 和 端口 号 就 需要 执行 烦琐 的 位 操作 。 所 以 Linux 为 各 个 协议 族 提 
供 了 专门 的 socket 地 址 结构 体 。 


UNIX 本 地 域 协 议 族 使 用 如 下 专用 socket 地 址 结构 体 : 





#include=<sys/un.h> 

struct sockaddr un 

{ 

sa family t sin family;/* 地 址 族 : AF _UNIX*/ 
char sun path[108];/* 文 件 路 径 名 */ 

}; 

















TCP/IP 协 议 族 有 sockaddr in 和 sockaddr in6 两 个 专用 socket 地 址 结构 


体 ， 它 们 分 别 用 于 IPvV4 和 IPvV6: 





struct sockaddr in 

{ 

sa family t sin family;/* 地 址 族 : AF INET*/ 

u int16 上 t sin port;yV/x* 端 口号 ， 要 用 网 络 字 节 序 表示 */ 
struct in addr sin addr;/*IPV4 地 址 结构 体 ， 见 下 面 */ 















































truct in addr 


int32 t s addr; /*IPv4 地 址 ， 要 用 网 络 字 节 序 表示 */ 


六 








} 
S 
{ 
u 
} 
struct sockaddr in6 

{ 

sa family t sin6 family;/* 地 址 族 : AF INET6*/ 

u int16 t sin6 port;/* 端 口号 ， 要 用 网 络 字 节 序 表示 */ 

u int32 t sin6 flowinfo;/* 流 信息 ， 应 设置 为 0*/ 

struct in6 addr sin6 aqddr;/*IPV6 地 址 结构 体 ， 见 下 面 */ 

u int32 t sin6 scope id;/*scope ID， 尚 处 于 实验 阶段 */ 

}; 

struct in6 addr 

{ 

unsigned char sa addr[16];/*IPV6 地 址 ， 要 用 网 络 字 节 序 表示 */ 
}; 













































































这 两 个 专用 socket 地 址 结构 体 各 字段 的 含义 都 很 明确 ， 我 们 只 在 右 
边 和 加 注释 。 


所 有 专用 socket 地 址 (以 及 sockaddr_storage)〉 类 型 的 变量 在 实际 使 
用 时 都 需要 转化 为 通用 socket 地 址 类 型 Sockaddr 〈 强 制 转换 即 可 ) ， 因 为 
所 有 socket 编 程 接口 使 用 的 地 址 参数 的 类 型 都 是 sockaddr。 


5.1.4 ”IP 地 址 转换 函数 


通常 ， 人 们 习惯 用 可 读 性 好 的 字符 串 来 表示 IP 地 址 ， 比 如 用 后 分 十 
进 制 字 符 串 表 示 IPv4 地 址 ， 以 及 用 十 六 进 制 字 符 串 表 示 IPv6 地 址 。 但 编 
程 中 我 们 需要 先 把 它们 转化 为 整数 (二 进 制 数 ) 方 能 使 用 。 而 记录 日 志 
时 则 相反 ， 我 们 要 把 整数 表示 的 耳 地 址 转化 为 可 读 的 字符 串 。 下 面 3 个 
函数 可 用 于 用 点 分 十 进 制 字 符 串 表示 的 IPv4 地 址 和 用 网 络 字 市 序 整 数 表 
示 的 IPv4 地 址 之 间 的 转换 : 








#include=arpa/inet.h> 

in addr 七 inet addr (const char*strptr); 

int inet aton(const char*cp,struct in addr*inp); 
char*inet ntoa(struct in addr in); 








inet_addr 函 数 将 用 点 分 十 进 制 字符 串 表 示 的 IPv4 地 址 转化 为 用 网 络 
字 节 序 整数 表示 的 IPv4 地 址 。 它 失败 时 返回 INADDR_NONE。 


inet_aton 函 数 完 成 和 inet_addr 同 样 的 功能 ， 但 是 将 转化 结果 存储 于 





参数 inp 指 辣 的 地 址 结构 中 。 它 成 功 时 返回 1， 失 败 则 返 


inet_ntoa 函 数 将 用 网 络 字 节 序 整数 表示 的 IPv4 地 址 转化 为 用 点 分 十 
进 制 字 符 串 表示 的 IPv4 地 址 。 但 需要 注意 的 是 ， 该 函数 内 部 用 一 个 静态 
变量 存储 转化 结果 ， 函 数 的 返回 值 指向 该 静态 内 存 ， 因 此 inet_ntoa 是 不 
可 重 入 的 。 代 码 清单 5-2 揭 示 了 其 不 可 重 入 性 。 








代码 清单 5-2 ”不 可 重 入 的 inet_ntoa 函 数 








char*szValuel=inet ntoa( 1.2.3.47) 7 
char*szValue2=inet ntoa(“10.194.71.60”); 
printf(“address 1:%s\n’”,szValuel); 
printf (“vaddress 2:%s\n”,szValue2); 






































运行 这 段 代码 ， 得 到 的 结果 是 : 





addressl:10.194.71.60 
address2:10.194.71.60 


OO 
~ 


























下 面 这 对 更 新 的 函数 也 能 完成 和 前 面 3 个 函数 同样 的 功能 ， 并 且 它 
们 同时 适用 于 IPv4 地 址 和 IPv6 地 址 : 





#include=<=arpa/inet.h> 

int inet pton(int af,const char*src,void*dst); 

const char*inet ntop (int af,const void*src,char*dst,socklen t 
Gn ) > 











inet_pton 函 数 将 用 字符 串 表 示 的 IP 地 址 srec( 用 点 分 十 进 制 字 符 串 表 
示 的 IPv4 地 址 或 用 十 六 进 制 学 符 串 表示 的 IPv6 地 址 〉 转换 成 用 网 络 字 闻 


序 整 数 表示 的 IP 地 址 ， 并 把 转换 结果 存储 于 dst 指 癌 的 内 存 中 。 其 中 ，af 
参数 指定 地 址 族 ， 可 以 是 AF_INET 或 者 AF_INET6。inet_pton 成 功 时 返 
回 1， 失 败 则 返回 0 并 设置 errno (|。 


inet_ntop 函 数 进行 相反 的 转换 ， 前 三 个 参数 的 含义 与 inet_pton 的 参 
数 相 同 ， 最 后 一 个 参数 cnt 指 定 目 标 存储 单元 的 大 小 。 下 面 的 两 个 宏 能 
帮助 我 们 指定 这 个 大 小 《分别 用 于 IPv4 和 IPv6) : 





#include=<=netinet/in.n> 
#define NET ADDRSTRLEN 16 
#define NET6 ADDRSTRLEN 46 



































inet_ntop 成 功 时 返回 目标 存储 单元 的 地 址 ， 失 败 则 返回 NULL 并 设 


置 errno。 


[1] Linux 提 供 众多 errno 以 表示 各 种 错误 。 如 非特 殊 情 况 ， 本 书 将 不 一 一 
指出 各 函数 可 能 反馈 的 eftho 值 。 


5.2 ”创建 socket 


UNIX/Linux 的 一 个 哲学 是 : 所 有 东西 都 是 文件 。socket 也 不 例外 ， 
它 就 是 可 读 、 可 写 、 可 控制 、 可 关闭 的 文件 描述 符 。 下 面 的 socket 系 统 
调用 可 创建 一 个 socket: 





#include=sys/types.h> 
#include=sys/socket.h> 
int socket (int domainyint type,int protocol); 








domain 参 数 告诉 系统 使 用 哪个 底层 协议 族 。 对 TCP/IP 协 议 族 而 言 ， 
该 参数 应 该 设置 为 PF_INET (Protocol Family of Internet， 用 于 IPv4) 或 
PF_INET6 〈 用 于 IPv6) ; 对 于 UNIX 本 地 域 协议 族 而 言 ， 该 参数 应 该 设 
置 为 PF_UNIX。 关 于 socket 系 统 调用 支持 的 所 有 协议 族 ， 请 读者 自己 参 
考 其 man 手 册 。 





type 参 数 指定 服务 类 型 。 服 务 类 型 主要 有 SOCK_STREAM 服 务 〈 流 
服务 ) 和 SOCK_UGRAM (数据 报 〉 服 务 。 对 TCP/IP 协 议 族 而 言 ， 其 值 
取 SOCK_STREAM 表 示 传 输 层 使 用 TCP 协 议 ， 取 SOCK_DGRAM 表 示 传 
输 层 使 用 UDP 协 议 。 


值得 指出 的 是 ， 自 Linux 内 核 版 本 2.6.17 起 ，type 参 数 可 以 接受 上 述 
服务 类 型 与 下 面 两 个 重要 的 标志 相 与 的 值 : SOCK_NONBLOCK 和 


SOCK_CLOEXEC。 它 们 分 别 表示 将 新 创建 的 socket 设 为 非 阻 压 的 ， 以 
及 用 fork 调 用 创建 子 进程 时 在 子 进程 中 关闭 该 socket。 在 内 核 版 本 2.6.17 
之 前 的 Linux 中 ， 文 件 描 述 符 的 这 两 个 属性 都 需要 使 用 额外 的 系统 调用 
(比如 fcntl) 来 设置 。 


protocol 参 数 是 在 前 两 个 参数 构成 的 协议 集合 下 ， 再 选择 一 个 具体 
的 协议 。 不 过 这 个 值 通 常 都 是 唯一 的 (前 两 个 参数 已 经 完全 决定 了 它 的 
值 ) 。 几 乎 在 所 有 情况 下 ， 我 们 都 应 该 把 它 设置 为 0， 表 示 使 用 默认 协 
议 。 





socket 系 统 调用 成 功 时 返回 一 个 socket 文 件 描 述 符 ， 失 败 则 返回 -1 并 


设置 errno。 


5.3 ”命名 socket 


创建 socket 时 ， 我 们 给 它 指 定 了 地 址 族 ， 但 是 并 未 指定 使 用 该 地 址 
族 中 的 哪个 具体 socket 地 址 。 将 一 个 socket 与 socket 地 址 绑 定 称 为 给 
socket 命 名 。 在 服务 器 程序 中 ， 我 们 通常 要 命名 socket， 因 为 只 有 命名 后 
客户 端 才能 知道 该 如 何 连接 它 。 客 户 端 则 通常 不 需要 命名 socket， 而 是 
采用 匿名 方式 ， 即 使 用 操作 系统 自动 分 配 的 socket 地 址 。 命 名 socket 的 系 
统 调用 是 bind， 其 定义 如 下 : 














#include=<=sys/types.h> 

#include=sys/socket.h> 

int bind(int sockfd,const struct sockaddr*my addr,socklen 七 
addrlen);} 











bind 将 my_addr 所 指 的 socket 地 址 分 配给 未 命名 的 sockfd 文 件 描述 
从，addrlen 参 数 指出 该 socket 地 址 的 长 度 。 


bind 成 功 时 返回 90， 失败 则 返回 -1 并 设置 errno。 其 中 两 种 常见 的 
errno 是 EACCES 和 EADDRINUSE， 它 们 的 含义 分 别 是 : 


DEACCES， 被 绑 定 的 地 址 是 受 保 护 的 地 址 ， 仅 超级 用 户 能 够 访 
问 。 比 如 普通 用 户 将 socket 绑 定 到 知名 服务 端口 〈 端 口号 为 0 一 1023) 上 
时 ，bind 将 返回 EACCES 错 误 。 


DEADDRINUSE， 被 绑 定 的 地 址 正在 使 用 中 。 比 如 将 socket 绑 定 到 
一 个 处 于 TIME_WAIT 状 态 的 socket 地 址 。 


5.4 监听 socket 


socket 被 命名 之 后 ， 还 不 能 马上 接受 客户 连接 ， 我 们 需要 使 用 如 下 
系统 调用 来 创建 一 个 监听 队列 以 存放 待 处 理 的 客户 连接 : 





#includqe< sys/socket.h> 
int listenl(int sockfd,int backlog); 











sockfd 参 数 指定 被 监听 的 socket。backlog 参 数 提 示 内 核 监听 队列 的 

最 大 长 度 。 监 听 队 列 的 长 度 如 果 超 过 backlog， 服 务 器 将 不 受理 新 的 客户 

连接 ， 客 户 端 也 将 收 到 ECONNREFUSED 错 误 信 息 。 在 内 核 版 本 2.2 之 前 
的 Linux 中 ，backlog 参 数 是 指 所 有 处 于 半 连 接 状 态 (SYN_RCVD) 和 完 

全 连接 状态 (ESTABLISHED)〉 的 socket 的 上 限 。 但 自 内 核 版 本 2.2 之 
后 ， 它 只 表示 处 于 完全 连接 状态 的 socket 的 上 限 ， 处 于 半 连 接 状态 的 
socket 的 上 限 则 由 /proc/sys/net/ipv4/tcp_max_syn_backlog 内 核 参 数 定义 。 
backlog 参 数 的 典型 值 是 5。 





listen 成 功 时 返回 0， 失 败 则 返回 -1 并 设置 errno。 


下 面 我 们 编写 一 个 服务 器 程序 ， 如 代码 清单 5-3 所 示 ， 以 研 冤 
backlog 参 数 对 listen 系 统 调 用 的 实际 影响 。 


代码 清单 5-3 backlog 参数 





#includqe<sys/socket.h> 
#include<netinet/in.h> 
#include=<=arpa/inet.h> 

#include=signal.h> 
#include=<=unistd.n> 
#include=stdlib.nhn> 
#include=<=assert.n> 





#include=stdio.h> 
include<=string.h> 
























































int main (in 


{ 


tic bool stop=false; 
GTERM 信 号 的 处 理 函 数 ， 触 发 时 结束 主 程序 中 的 循环 */ 


tic void handle term(int sig) 





top=true; 














七 argc,char*argv|[]) 


signal (SIGTERM, handle term); 





{ 


printf ("usage:%s ip address port number 


backlog\n",basename (argv[0])); 


if (argc==3) 





return 1; 


} 


const char*ip=argv[1]; 


in 


了 nt 
inti 





LE i 





port=atoi (argv [2 
backlog=atoi (argy 


] ) 








NE 








SOCK=SOCKet (PE 


assert (sock~>=0)， 


/* 创 建 一 个 IPv4 socket 地 址 */ 


struct 


address.sin: 
inet pton (AF INET,ip,&address.sin addr); 


























famil y=AF 





3]); 
'T, SOCK STREAM, 0); 





t sockaddr in address; 


bzero (&address,sizeof (address)); 











NET; 





address.sin port=htons (port); 











ret=bind(sock, (struct sockaddr*) &address,sizeo 




















int 

assert (ret!=-1);) 

ret=listen (sock,backlog); 

assert (ret!=-1);) 

/* 循 环 等 待 连 接 ， 直 到 有 SIGTERM 信 号 将 它 串 

















while(!stop) 


{ 


sleep (1) ， 


} 


/x 关 闭 socket， 见 后 文 x/ 


close (sock); 
return 0; 


} 


Pi*/ 





f (address) ) ， 





该 服务 器 程序 〈 名 为 testlisten ) 接收 3 个 参数 : 地址 、 端 口号 和 
backlog 值 。 我 们 在 Kongming20 上 运行 该 服务 器 程序 ， 并 在 ernest-laptop 
上 多 次 执行 telnet 命 令 来 连接 该 服务 器 程序 。 同 时 ， 每 使 用 telnet 命 令 建 
立 一 个 连接 ， 就 执行 一 次 netstat 命 令 来 查看 服务 器 上 连接 的 状态 。 有 具体 
操作 过 程 如 下 : 








$./testlisten 192.168.1.109 12345 5# 监 听 12345 端 口 ， 给 packlog 传 递 典 型 








值 5 














Stelnet 192.168.1.109 12345# 多 次 执行 之 
$netstat-nt|grep 12345# 多 次 执行 之 








代码 清单 5-4 是 netstat 命 令 某 次 输出 的 内 容 ， 它 显示 了 这 一 时 刻 listen 
监听 队列 的 内 容 。 


代码 清单 5-4 _ listen 监听 队列 的 内 容 



















































































Proto Recv-Q Senadq-Q Local Address Foreign Address Statetcp 
tcp 0 0 192.168.1.109:12345 192.168.1.108:2240 SYN RECV 
tcp 0 0 192.168.1.109:12345 192.168.1.108:2228 SYN RECV [|] 
tep 0.0 192.168.,1;,109:12345 192.168.1108:2230 SYN_RECV 
tcp 0 0 192.168.1.109:12345 192.168.1.108:2238 SYN RECV 
tcp 0 0 192.168.1.109:12345 192.168.1.108:2236 SYN RECV 
tep 0 0 192.168.1.109:12345 192.168.1.108;2217 ESTABLISHED 
tcp 0 0 192.168.1.109:12345 192.168.1.108;2226 ESTABLISHED 
tcp 0 0 192.168.1.109:12345 192.168.1.108:;2224 ESTABLISHED 
tecp 0 0 192.168.1.109:12345 192.168.1.108:;2212 ESTABLISHED 
tep 0 0 192.,.168.1.109:12345 192.168.1.108;2220 ESTABLISHED 
tcp 0 0 192.168.1.109:12345 192 .168.1.108:2222 ESTABLISHED 





















































可 见 ， 在 监听 队列 中 ， 处 于 ESTABLISHED 状 态 的 连接 只 有 6 个 


(backlog 值 加 1) ， 其 他 的 连接 都 处 于 SYN_RCVD 状 态 。 我 们 改变 服务 
器 程序 的 第 3 个 参数 并 重新 运行 之 ， 能 发 现 同样 的 规律 ， 即 完整 连接 最 
多 有 (backlog+1) 个 。 在 不 同 的 系统 上 ， 运 行 结果 会 有 些 差别 ， 不 过 
监听 队列 中 完整 连接 的 上 限 通常 比 backlog 值 略 大 。 





[1] 等 价 于 图 8-8 中 的 SYN_RCVD 状 态 。 


5.5 “接受 连接 


下 面 的 系统 调用 从 listen 监 昕 队列 中 接受 一 个 连接 : 





#include=<=sys/types.h> 
#include=sys/socket.nh> 
int accept (int sockfd,struct sockaddr*addr,socklen t*addrlen); 











sockfd 参 数 是 执行 过 listen 系 统 调用 的 监听 socket1 | 。addr 参 数 用 来 
获取 被 接受 连接 的 远 端 socket 地 址 ， 该 socket 地 址 的 长 度 由 addrlen 参 数 指 
出 。accept 成 功 时 返回 一 个 新 的 连接 socket， 该 socket 唯 一 地 标识 了 被 接 
受 的 这 个 连接 ， 服 务 器 可 通过 读 写 该 socket 来 与 被 接受 连接 对 应 的 客户 
端 通信 。accept 失 败 时 返回 -1 并 设置 errno。 





现在 考虑 如 下 情况 : 如 果 监 听 队 列 中 处 于 ESTABLISHED 状 态 的 连 
接 对 应 的 客户 端 出 现 网 络 异常 (比如 掉 线 ) ， 或 者 提前 退出 ， 那 么 服务 
器 对 这 个 连接 执行 的 accept 调 用 是 否 成 功 ? 我 们 编写 一 个 简单 的 服务 器 
程序 来 测试 之 ， 如 代码 清单 5-5 所 示 。 


代码 清单 5-5 ”接受 一 个 异常 的 连接 





#include=sys/socket.nh> 
#include<netinet/in.h> 
#include=arpa/inet.h> 
#include=<assert.n> 
#include=stdio.h> 
#include=<=unistd.n> 








#include=stdlib.hn> 
#include=<errno.h> 
#include=string.h> 
int main(int argc,char*argv[]) 
{ 
if (argc==2) 
{ 
printf("usage:%s ip address port number\n",basename (argv{[0])); 
return 1; 
} 
const char*ip=argv[1]; 
int port=atoi (argv[21); 
struct sockaddr in address; 
bzero (&address,sizeof (address)); 
address.sin family=AF INET; 
inet pton (AF INET,ip,&address.sin addr); 
address.sin port=htons (port); 
int sock=socket (PF INET,SOCK STREAM,0); 
assert (sock>>=0);， 
int ret=bind(sock, (struct sockaddr*) &address,sizeof (address)); 
assert (ret!=-1);) 
ret=listen (sock,5);} 
assert (ret!=-1);) 
/* 暂 停 20 秒 以 等 待 客户 端 连接 和 相关 操作 〈 掉 线 或 者 退出 〉 完 成 */ 
sleep (20);，; 
struct sockaddr in client; 
socklen t client addrlength=sizeof (client); 
int connfd=accept (sock, (struct sockaddr*) &client,& 
client addrlength); 
if (connfd=0) 
{ 
printf ("errno is:%Sd\n",errno); 


} 


else 














































































































{ 

/* 接 受 连接 成 功 则 打印 出 客户 端的 IP 地 址 和 端口 号 */ 

char remote[INET ADDRSTRLEN]; 

printf("connected with ip:%s and port:%d\n",inet ntop(AF INET,& 
client.sin addr,remote,INET ADDRSTRLEN),ntohs (client.sin port)); 

close (connfd);) 
} 
close (sock);} 
return 0; 


} 


二 一 






























































我 们 在 Kongming20 上 运行 该 服务 器 程序 〈 名 为 testaccept) ， 并 在 
ernest-laptop 上 执行 telnet 命 令 来 连接 该 服务 器 程序 。 有 具体 操作 过 程 如 





$./testaccept 192.168.1.109 54321# 监 听 54321 端 口 
Stelnet 192.168.1.109 54321 














局 动 telnet 客 户 端 程序 后 ， 芯 即 断 开 访 客户 端的 网 络 连接 《建立 和 
断 开 连接 的 过 程 要 在 服务 器 启动 后 20 秒 内 完成 ) 。 结 果 发 现 accept 调 用 
能 够 正常 返回 ， 服 务 器 输出 如 下 : 





connected with ip:192.168.1.108 and port:38545 








接着 ， 在 服务 器 上 运行 netstat 命 令 以 查看 accept 返 回 的 连接 socket 的 
状态 : 





snetstat-ntlgrep 54321 
tcp 0 0 192.168.1.109:54321 192.168.1.108:38545 ESTABLISHED 





























netstat 命 令 的 输出 说 明 ，accept 调 用 对 于 客户 问 网 络 断 开 旦 不 知情 。 
下 面 我 们 重新 执行 上 述 过 程 ， 不 过 这 次 不 断 开 客户 端 网 络 连 接 ， 而 是 在 

连接 后 立即 退出 客户 端 程序 。 这 次 accept 调 用 同样 正常 返回 ， 服 务 
器 输出 如 下 : 








connected with ip:192.168.1.108 andq port:52070 








再 次 在 服务 器 上 运行 netstat 命 令 : 





snetstat-ntlgrep 54321 
tcp 1 0 192.168.1.109:54321 192.168.1.108:52070 CLOSE WAIT 























由 此 可 见 ，accept 只 是 从 监听 队列 中 取出 连接 ， 而 不 论 连 接 处 于 何 
种 状态 〈 如 上 面 的 ESTABLISHED 状 态 和 CLOSE_WAIT 状 态 ) ， 更 不 关 
心 任何 网 络 状况 的 变化 。 


[1 我 们 把 执行 过 listen 调 用 、 处 于 LISTEN 状 态 的 socket 称 为 监听 socket， 
而 所 有 处 于 ESTABLISHED 状 态 的 socket 则 称 为 连接 socket。 


5.6 发 起 连接 


如 果 说 服务 器 通过 listen 调 用 来 被 动 接 受 连 接 ， 那 么 客户 端 需要 通过 
如 下 系统 调用 来 主动 与 服务 器 建立 连接 : 





#include=<=sys/types.h> 

#include=sys/socket.nh> 

int connect (int sockfd,const struct sockaddr*serv addr,socklen t 
addrlen);} 











sockfd 参 数 由 socket 系 统 调用 返回 一 个 socket。serv_addr 参 数 是 服务 
器 监听 的 socket 地 址 ，addrlen 参 数 则 指定 这 个 地 址 的 长 度 。 


connect 成 功 时 返回 0。 一 旦 成 功 建 并 连接 ，sockfd 束 唯一 地 标识 了 
连接 ， 客 户 端 就 可 以 通过 读 写 sockfd 来 与 服务 器 通信 。connect 失 败 
则 返回 -1 并 设置 ermo。 其 中 两 种 常见 的 ermo 是 ECONNREFUSED 和 
ETIMEDOUT， 它 们 的 含义 如 下 : 





DECONNREFUSED， 目 标 端口 不 存在 ， 连 接 被 拒绝 。 我 们 在 3.5.1 
小 节 讨 论 过 这 种 情况 。 


DETIMEDOUT， 连 接 超 时 。 我 们 在 3.3.3 小 节 讨 论 过 这 种 情况 。 


5.7 关闭 连接 





关闭 一 个 连接 实际 上 就 是 关闭 该 连接 对 应 的 socket， 这 可 以 通过 如 
下 关闭 普通 文件 描述 符 的 系统 调用 来 完成 : 





#include=unistd.h> 
int close (int fqd); 














fd 参数 是 待 关 闭 的 socket。 不 过 ，close 系 统 调用 并 非 总 是 立即 关闭 
一 个 连接 ， 而 是 将 fa 的 引用 计数 减 1。 只 有 当 fd 的 引用 计数 为 0 时 ， 才 真 
正 关 闭 连 接 。 多 进程 程序 中 ， 一 次 fork 系 统 调 用 默认 将 使 父 进程 中 打开 
的 socket 的 引用 计数 加 1， 因 此 我 们 必须 在 父 进 程 和 子 进程 中 都 对 该 
socket 执 行 close 调 用 才能 将 连接 关闭 。 


如 果 无 论 如 何 都 要 立即 终止 连接 (而 不 是 将 socket 的 引用 计数 减 
) ， 可 以 使 用 如 下 的 shutdown 系 统 调用 (相对 于 close 来 说 ， 它 是 专门 
为 网 络 编程 设计 的 ) : 





#includqe< sys/socket.h> 
int shutdown (int sockfd,int howto); 








sockfd 参 数 是 待 关 闭 的 socket。howto 参 数 决 定 了 shutdown 的 行为 ， 
它 可 取 表 5-3 中 的 某 个 值 。 


表 5-3 howto 参数 的 可 选 值 

可 选 值 含 义 

关闭 sockfd 上 读 的 这 一 半 。 应 用 程序 不 能 再 针对 socket 文件 描述 符 
执行 读 操 作 ， 并 且 该 socket 接收 缓冲 区 中 的 数据 都 被 丢弃 

关闭 sockfd 上 写 的 这 一 半 。sockfd 的 发 送 缓冲 区 中 的 数据 会 在 真正 
SHUT_WR 关闭 连接 之 前 全 部 发 送出 去 ， 应 用 程序 不 可 再 对 该 socket 文件 描述 符 

执行 写 操作 。 这 种 情况 下 ， 连 接 处 于 半 关 闭 状 态 〈 见 3.3.2 小 节 ) 

SHUT RDWR 同时 关闭 sockfd 上 的 读 和 写 





SHUT_ RD 


由 此 可 见 ，shutdown 能 够 分 别 关 闭 socket 上 的 读 或 写 ， 或 者 都 关 
闭 。 而 dose 在 关闭 连接 时 只 能 将 socket 上 的 读 和 写 同 时 关闭 。 


shutdown 成 功 时 返回 9， 失败 则 返回 -1 并 设置 errno。 


5.8 ”数据 读 瑟 


5.8.1 ”TCP 数据 读 写 


对 文件 的 读 写 操作 read 和 write 同 样 适 用 于 socket。 但 是 socket 编 程 接 
口 提供 了 几 个 专门 用 于 socket 数 据 读 写 的 系统 调用 ， 它 们 增加 了 对 数据 
读 写 的 控制 。 其 中 用 于 TCP 流 数据 读 写 的 系统 调用 是 : 





#include=<=sys/types.h> 

#include=sys/socket.h> 

ssize t recv(int sockfd,void*buf,size t len,int flags); 
ssize t sendl(int sockfd,const void*buf,size t len,int flags); 
































recv 读 取 sockfd 上 的 数据 ，buf 和 len 参 数 分 别 指定 读 缓冲 区 的 位 置 和 
大 小 ，flags 参 数 的 含义 见 后 文 ， 通 常设 置 为 0 即 可 。recv 成 功 时 返回 实际 
读 取 到 的 数据 的 长 度 ， 它 可 能 小 于 我 们 期 望 的 长 度 len。 因 此 我 们 可 能 
要 多 次 调用 recv， 才 能 读 取 到 完整 的 数据 。recv 可 能 返回 0， 这 意味 着 通 
信 对 方 已 经 关闭 连接 了 。recv 出 错时 返回 -1 并 设置 errno。 


send 往 sockfd 上 写 入 数据 ，buf 和 1len 参 数 分 别 指定 写 缓 冲 区 的 位 置 和 
大 小 。send 成 功 时 返回 实际 写 入 的 数据 的 长 度 ， 失 败 则 返回 -1 并 设置 


elIIIO 。 


flags 参 数 为 数据 收发 提供 了 额外 的 控制 ， 它 可 以 取 表 5-4 所 示 选 项 


中 的 一 个 或 几 个 的 逻辑 或 。 站 


表 5-4 flags 参数 的 可 选 值 


选项 名 含 尺 recv 
指示 数据 链 路 层 协议 持续 监听 对 方 的 回应 ， 直 到 得 到 答复 。 它 仅 











能 用 于 SOCK_DGRAM 和 SOCK_RAW 类 型 的 socket 入 
不 查看 路 由 表 ， 直 接 将 数据 发 送 给 本 地 局 域 网 络 内 的 主机 。 这 表 

MSO-PONTROUTE | 示 发 送 者 确切 地 知道 目标 主机 就 在 本 地 网 络 上 

MSG_DONTWAIT 对 socket 的 此 次 操作 将 是 非 阻塞 的 Y 
告诉 内 核 应 用 程序 还 有 更 多 数据 要 发 送 ， 内 核 将 超时 等 待 新 数据 

MSG MORE 写 和 人 TCP 发 送 缓冲 区 后 一 并 发 送 。 这 样 可 防止 TCP 发 送 过 多 小 的 N 

报 文 段 ， 从 而 提高 传输 效率 

MSG_WAITALL 读 操 作 仅 在 读 取 到 指定 数量 的 字 节 后 才 返 回 玉 

MSG PEEK 撕 探 读 缓 存 中 的 数据 ， 此 次 读 操 作 不 会 导致 这 些 数据 被 清除 

MSG_OOB 发 送 或 接收 紧急 数据 4 

MSG_NOSIGNAL 往 读 端 关闭 的 管道 或 者 socket 连接 “中 写 数 据 时 不 引发 SIGPIPE 





信号 


我 们 举例 来 说 明 如 何 使 用 这 些 选项 。MSG_OOB 选 项 给 应 用 程序 提 
供 了 发 送 和 接收 带 外 数据 的 方法 ， 如 代码 清单 5-6 和 代码 清单 5-7 所 示 。 


代码 清单 5-6 ”发送 之 外 数据 





#include=sys/socket.h> 
#include<netinet/in.h> 
#include=<=arpa/inet.h> 
#include=<assert.nhn> 
#include=stdio.h> 
#include=<=unistd.n> 
#include=string.h> 
#include=stdlib.n> 

int main(int argc,char*argv[]) 
{ 

if (argc==2) 

{ 

printf("usage:%s ip address port number\n",basename (argv{[0])); 
return 1; 

} 


const char*ip=argv[1]; 




















int port=atoi (argv[21); 

struct sockaddr in server address; 
bzero(&server address,sizeof (server address)); 
server address.sin family=AF INET; 

inet pton(AF INET,ip,&server address.sin addr); 
server address.sin port=htons (port); 

int sockfd=socket (PF INET,SOCK STREAM,0); 
assert (sockfd>>=0)， 

if (connect (sockfd, (struct sockaddr*)& 

server address,sizeof (server address))=0) 


{ 






















































































printf("connection failed\n"); 

} 

else 

{ 

const char*oob data="abc"; 

const char*normal data="123"; 
send(sockfd,normal data,strlen (normal data),o);} 
































( 
send (sockfd,oob data,strlen (oob data),MSG OOB) ; 
send(sockfd,normal data,strlen(normal data),o0); 
} 
close (sockfd);) 
return 0; 


} 














代码 清单 5-7 接收 带 外 数据 





#includqe< sys/socket.h> 

#include<netinet/in.h> 

#include=<=arpa/inet.h> 

#include=<assert.nhn> 

#include=stdio.h> 

#include=<=unistd.n> 

#include=stdlib.n> 

#include=<=errno.h> 

#include=string.h> 

#define BUF SIZE 1024 

int main(int argc,char*argv[]) 

{ 

if (argc 所 =2) 

{ 

printf("usage:%s ip address port number\n",basename (argv{[0])); 
return 1; 

} 


const char*ip=argv{[1]; 












































int port=atoi (argv[2]):， 


struct sockaddr in address; 


bzero (&address,sizeo 
address.sin: 








fami ly=AF 











N 








f (adqdqress) ) 
BB 


inet pton (AF INET,ip,&address.sin addr); 
address.sin port=htons (port); 

int sock=socket (PF INET,SOCK STREAM,0); 
assert (sock~>>=0);，} 
int ret=bind(sock, (struct sockaddr*) &address,sizeof (address)); 














assert (ret 





下 














ret=listen (sock, 5); 








assert (ret 








!=-1); 








struct sockaddr in client; 

socklen t client addrlength=sizeof (client); 

int connfd=accept (sock, (struct sockaddr*) &client,& 
client addrlength); 

if (connfd=0) 














{ 











printf ("errno is:%d\n",errno); 





} 


else 


{ 











char bufferl[l] 




















memset (buffer,'\0', 





ret=recv (conn 


BUF SIZE]; 












































Brintt(t"go 








memset (bu 





ret=recv (conn 




































































DrinNtf( oo 








memset (bu 





ret=recv (conn 




































































DELntt(t ge 


Close (connf 


} 








close (sock); 


return 0; 


} 





























BUF SIZE); 

fd buffer;BUE STZ2E-10); 
上 gdq bytes of normal data'%s'\n",ret,buffer); 
Ffer, '\0',BUF SIZE); 

fd, buffer, BUF SIZ 已 一 工 ， MSG OOB) 
上 gaq bytes of oob data'%s'\n",ret,buffer); 
Ffer, '\0',BUF SIZE); 

Fd; bufferyBYF. SIZB=-1;0)3 
上 gdq bytes of normal data'%ss'\n",ret,buffer); 

d); 





我 们 先 在 Kongming20 上 启动 代码 清单 5-7 所 示 的 服务 器 程序 (名 为 
testoobrecv) ， 然 后 从 ernest-laptop 上 执行 代码 清单 5-6 所 示 的 客户 端 程序 
《名 为 testoobsend) 来 向 服务 器 发 送 带 外 数据 。 同 时 用 tcpdump 抓 取 这 
一 过 程 中 客户 端 和 服务 器 交换 的 TCP 报 文 段 。 有 具体 操作 如 下 : 














$./testoobrecv 192.168.1.109 54321# 在 Kongming20 上 执行 服务 器 程序 ， 监 听 

54321 端 口 
$./testoobsend 192.168.1.109 54321# 在 srnest-1aptop 上 执行 客户 端 程序 
$sudo tcpdump-ntx-i eth0 port 54321 






































服务 器 程序 的 输出 如 下 : 








got 5 bytes of normal data'123ab' 
got 1 bytes of oopb data'c' 
got 3 bytes of normal data'1l23' 



































由 此 可 见 ， 客 户 端 发 送 给 服务 器 的 3 字 节 的 带 外 数据 “abc" 中 ， 仅 有 
最 后 一 个 字符 “c”* 被 服务 器 当成 真正 的 带 外 数据 接收 (正如 3.8 节 讨论 的 
那样 )。 并 且 ， 服 务 器 对 正常 数据 的 接收 将 被 带 外 数据 截断 ， 即 前 一 部 
分 正常 数据 “123ab” 和 后 续 的 正常 数据 “123? 是 不 能 被 一 个 recv 调 用 全 部 
读 出 的 。 


tcpdump 的 输出 内 容 中 ， 和 带 外 数据 相关 的 是 代码 清单 5-8 所 示 的 
TCP 报 文 段 。 


代码 清单 5-8 含 带 外 数据 的 TCP 报 文 段 





IP ,102.16871.108.60460 祖 192.168.1.109.54321 :Flags[P.U] seq 24232763CK 
1l,win 92,urg 3,o0ptions[lnop,nop,TS val 102794322 ecr 154703423],1length 
3 











这 里 我 们 第 一 次 看 到 tcpdump 输 出 标志 U， 这 表示 该 TCP 报 文 段 的 头 
部 被 设置 了 紧急 标志 。“urg 3 是 紧急 偏 移 值 ， 它 指出 带 外 数据 在 字 节 流 


中 的 位 置 的 下 一 字 节 位 置 是 7 〈3+4， 其 中 4 是 该 TCP 报 文 段 的 序号 值 相 
对 初始 序号 值 的 俩 移 ) 。 因 此 ， 币 外 数据 是 字 市 流 中 的 第 6 字 市 ， 即 字 


yen 


付 C。o 





值得 一 提 的 是 ，flags 参 数 只 对 send 和 recv 的 当前 调用 生效 ， 而 后 面 
我 们 将 看 到 如 何 通 过 setsockopt 系 统 调 用 永久 性 地 修改 socket 的 某 些 属 
性 。 


5.8.2 UDP 数据 读 写 


socket 编 程 接 口中 用 于 UDP 数据 报 读 写 的 系统 调用 是 : 





#include=<=sys/types.h> 
#include=<=sys/socket.n> 

















ssize t recvfrom(int sockfd,void*buf,size t len,int flags,struct 
sockaddr*src addr,socklen t*addrlen); 
ssize t Senqto (int sockfd,const void*buf,size t len,int 

















flags,const struct sockaddr*dest addr,socklen 七 addrlen); 





recvfrom 读 取 sockfd 上 的 数据 ，buf 和 1len 参 数 分 别 指定 读 缓冲 区 的 位 
置 和 大 小 。 因 为 UDP 通信 没有 连接 的 概念 ， 所 以 我 们 每 次 读 取 数 据 都 需 
要 获取 发 送 端的 socket 地 址 ， 即 参数 src_addr 所 指 的 内 容 ，addrlen 参 数 则 
指定 该 地 址 的 长 度 。 


sendto 往 sockfd 上 写 入 数据 ，buf 和 1len 参 数 分 别 指定 写 缓冲 区 的 位 置 
和 大 小 。dest_addr 参 数 指 定 接收 端的 socket 地 址 ，addrlen 参 数 则 指定 该 


地 址 的 长 度 。 


这 两 个 系统 调用 的 flags 参 数 以 及 返回 值 的 含义 均 与 send/recv 系 统 调 
用 的 flags 参 数 及 返回 值 相同 。 


值得 一 提 的 是 ，recvfrom/sendto 系 统 调用 也 可 以 用 于 面向 连接 
(STREAM) 的 socket 的 数据 读 写 ， 只 需要 把 最 后 两 个 参数 都 设置 为 
NULL 以 忽略 发 送 端 /接收 端的 socket 地 址 (因为 我 们 已 经 和 对 方 建立 了 
连接 ， 所 以 已 经 知道 其 socket 地 址 了 ) 。 











5.8.3 ”通用 数据 读 写 函数 


socket 编 程 接口 还 提供 了 一 对 通用 的 数据 读 写 系 统 调用 。 它 们 不 仅 
能 用 于 TCP 流 数据 ， 也 能 用 于 UDP 数据 报 : 





#includqe< sys/socket.h> 
ssize t recvmsg (int sock 
ssize 七 sendmsg (int sock 








truct msghdr*msg,int flags); 
truct msghdr*msg,int flags); 





了 


























fd 
fd 








S 
S 





了 





sockfd 参 数 指定 被 操作 的 目标 socket。msg 参 数 是 msghdr 结 构 体 类 型 
的 指针 ，msghdr 结 构 体 的 定义 如 下 : 





struct msghdr 

{ 

voidxmsg name; /*socket 地 址 */ 

socklen t msg namelen;/*socket 地 址 的 长 度 */ 
struct iovec*msg iov;/* 分 散 的 内 存 块 ， 见 后 文 */ 
int msg_iovlen;/* 分 散 内 存 块 的 数量 */ 


void*msg_control;/* 指 向 辅助 数据 的 起 始 位 置 */ 

socklen 上 t msg controllen;/* 辅 助 数 据 的 大 小 */ 

int msg_flags;/* 复 制 函 数 中 的 flags 参 数 ， 并 在 调用 过 程 中 更 新 */ 
}; 
































msg_name 成 员 指 向 一 个 socket 地 址 结构 变量 。 它 指定 通信 对 方 的 
socket 地 址 。 对 于 面向 连接 的 TCP 协 议 ， 该 成 员 没 有 意义 ， 必 须 被 设置 
为 NULL。 这 是 因为 对 数据 流 socket 而 言 ， 对 方 的 地 址 已 经 知道 。 
msg_namelen 成 员 则 指定 了 msg_name 所 指 socket 地 址 的 长 度 。 





msg_iov 成 员 是 iovec 结 构 体 类 型 的 指针 ，iovec 结 构 体 的 定义 如 下 : 





struct iovec 

{ 

void*iov_base;/* 内 存 起 始 地 址 */ 
size t iov_len;/* 这 块 内 存 的 长 度 */ 
}; 





由 上 可 见 ，iovec 结 构 体 封装 了 一 块 内 存 的 起 始 位 置 和 长 度 。 
msg_iovlen 指 定 这 样 的 iovec 结 构 对 象 有 多 少 个 。 对 于 recvmsg 而 言 ， 数 
据 将 被 读 取 并 存放 在 msg_iovlen 块 分 散 的 内 存 中 ， 这 些 内 存 的 位 置 和 长 
度 则 由 msg_iov 指 向 的 数组 指定 ， 这 称 为 分 散 读 〈scatter read) ; 对 于 
sendmsg 而 言 ，msg iovlen 块 分 散 内 存 中 的 数据 将 被 一 并 发 送 ， 这 称 为 集 
中 写 (gather write) 。 


msg_control 和 msg_controllen 成 员 用 于 辅助 数据 的 传送 。 我 们 不 详 
细 讨 论 它 们 ， 仅 在 第 13 章 介绍 如 何 使 用 它们 来 实现 在 进程 间 传 递 文件 描 


述 符 。 





msg_flags 成 员 无 须 设 定 ， 它 会 复制 recvmsg/sendmsg 的 flags 参 数 的 
内 容 以 影响 数据 读 写 过 程 。recvmsg 还 会 在 调用 结束 前 ， 将 某 些 更 新 后 
的 标志 设置 到 msg_flags 中 。 





recvmsg/sendmsg 的 flags 参 数 以 及 返回 值 的 含义 均 与 send/recv 的 flags 
参数 及 返回 值 相 同 。 


[1] 由 于 socket 连 接 是 全 双 工 的 ， 这 里 的 “ 读 端 ”是 针对 通信 对 方 而 言 
的 。 


5.9 ”和 带 外 标记 


代码 清单 5-7 演 示 了 TCP 带 外 数据 的 接收 方法 。 但 在 实际 应 用 中 ， 我 
们 通常 无 法 预期 带 外 数据 何 时 到 来 。 好 在 Linux 内 核 检 测 到 TCP 紧 急 标 
志 时 ， 将 通知 应 用 程序 有 带 外 数据 需要 接收 。 内 核 通 知 应 用 程序 市 外 数 
据 到 达 的 两 种 常见 方式 是 : VO 复 用 产生 的 异常 事件 和 SIGURG 信 号 。 但 
是 ， 即 使 应 用 程序 得 到 了 有 和 带 外 数据 需要 接收 的 通知 ， 还 需要 知道 带 外 
数据 在 数据 流 中 的 具体 位 置 ， 才 能 准确 接收 融 外 数据 。 这 一 点 可 通过 如 
下 系统 调用 实现 : 








#includqe<sys/socket.h> 
int sockatmark (int sockfd); 





we 





sockatmark 判 断 Sockfd 是 否 处 于 带 外 标记 ， 即 下 一 个 被 读 取 到 的 数 
据 是 否 是 带 外 数据 。 如 果 是 ，sockatmark 返 回 1， 此 时 我 们 就 可 以 利用 带 
MSG_OOB 标 志 的 recv 调 用 来 接收 带 外 数据 。 如 果 不 是 ， 则 sockatmark 返 
回 0。 


5.10 ”地址 信息 函数 


在 某 些 情况 下 ， 我 们 想 知道 一 个 连接 socket 的 本 端 Socket 地 址 ， 以 及 
远 端 的 Socket 地 址 。 下 面 这 两 个 函数 正 是 用 于 解决 这 个 问题 











#includqe< sys/socket.h> 

int getsockname (int sockfd,struct 
sockaddr*address,socklen t*address len); 

int getpeername (int sockfd,struct 
sockaddr*address,socklen t*address len); 












































getsockname 获 取 sockfd 对 应 的 本 病 socket 地 址 ， 并 将 其 存储 于 
address 参 数 指定 的 内 存 中 ， 该 socket 地 址 的 长 度 则 存储 于 address_len 参 
数 指向 的 变量 中 。 如 果实 际 socket 地 址 的 长 度 大 于 address 所 指 内 存 区 的 
大 小 ， 那 么 该 socket 地 址 将 被 截断 。getsockname 成 功 时 返回 0， 失 败 返 
回 -1 并 设置 errno。 


getpeername 获 取 sockfd 对 应 的 远 端 socket 地 址 ， 其 参数 及 返回 值 的 
含义 与 getsockname 的 参数 及 返回 值 相同 。 


5.11 socket 选项 


如 果 说 fcntl 系 统 调用 是 控制 文件 描述 符 属 性 的 通用 POSIX 方 法 ， 那 
么 下 面 两 个 系统 调用 则 是 专门 用 来 读 取 和 设置 socket 文 件 描述 符 属 性 的 
方法 : 





#includqe< sys/socket.h> 

int getsockopt (int sockfd,int level,int 
option name,void*option value,socklen t*restrict option len); 

int setsockopt (int sockfd,int level,int option name,const 
void*option value,socklen 七 option len); 
























































sockfd 参 数 指定 被 操作 的 目标 socket。level 参 数 指定 要 操作 哪个 协议 
的 选项 〈 即 属性 ) ， 比 如 IPv4、IPv6、TCP 等 。option_name 参 数 则 指定 
选项 的 名 字 。 我 们 在 表 5-5 中 列举 了 socket 通 信 中 几 个 比较 常用 的 socket 
选项 。option_value 和 option_len 参 数 分 别 是 被 操作 选项 的 值 和 长 度 。 不 
同 的 选项 具有 不 同类 型 的 值 ， 如 表 5-5 中 “数据 类 型 > 一列 所 示 。 


表 5-5 socket 选项 


ee EEE Ci 











SO_DEBUG 打开 调试 信息 
SO_REUSEADDR 重用 本 地 地 址 
SO_TYPE 获取 socket 类 型 
SO_ERROR 获取 并 清除 socket 错误 状态 
不 查看 路 由 表 ， 直 接 将 数据 发 送 给 本 地 
SO DONTROUTE 局 域 网 内 的 主机 。 含 义 和 send 系统 调用 的 





MSG DONTROUTE 标志 类 似 


SO_RCVBUF | int ”| Tcp 接 收 缓冲 区 大 小 
SOL SOCKET SO_SNDBUF | int ”| TcP 发 送 缓冲 区 大 小 
(通用 socket 选项 , 与 | SO_KEEPALIVE “| int | 发 送 周 期 性 保 活 报 文 以 维持 连接 


协议 无 关 ) 接收 到 的 带 外 en 存留 在 普通 数据 的 输 
i 入 队列 中 (在 线 存留 )， 此 时 我 们 不 能 使 用 
带 MSG_OOB 标志 的 A 作 来 读 取 带 外 数据 

(而 应 该 像 读 取 普通 数据 那样 读 取 带 外 数据 ) 


若 有 数据 待 发 送 ， 则 延迟 关闭 
于 TCP 接收 缓存 区 低 水 位 标记 
| SO SNDLOWAT | int | rcp 发 送 缓存 区 低 水 位 标记 
接收 数据 超时 ( 见 第 11 章 ) 


IPPROTO IPV6 | IPV6 RECVPKTINFO | int ”| 接收 分 组 信息 
ET 
IPPROTO_TCP | TCPMAXSEG | int | TCP 最 大 报 文 段 大 小 
(TCP 选项 ) | TCP NODELAY “| im | 禁 让 Nagle 算 法 
getsockopt 和 setsockopt 这 两 个 函数 成 功 时 返回 0， 失 败 时 返回 -1 并 设 


置 ermo。 


值得 指出 的 是 ， 对 服务 器 而 言 ， 有 部 分 socket 选项 只 能 在 调用 listen 
系统 调用 前 针对 监听 socket 1 设置 才 有 效 。 这 是 因为 连接 socket 只 能 由 
accept 调 用 返回 ， 而 accept 从 listen 监 听 队 列 中 接受 的 连接 至 少 已 经 完成 





了 TCP 三 次 握手 的 前 两 个 步骤 《因为 listen 监 听 队 列 中 的 连接 至 少 已 进入 
SYN_RCVD 状 态 ， 参 见 图 3-8 和 代码 清单 5-4) ， 这 说 明 服 务 器 已 经 往 被 
接受 连接 上 发 送出 了 TCP 同 步 报 文 段 。 但 有 的 socket 选 项 却 应 该 在 TCP 
同步 报 文 段 中 设置 ， 比 如 TCP 最 大 报 文 段 选项 〈 回 忆 3.2.2 小 节 ， 该 选项 
只 能 由 同步 报 文 段 来 发 送 ) 。 对 这 种 情况 ，Linux 给 开发 人 员 提 供 的 解 
决 方案 是 : 对 监听 socket 设置 这 些 socket 选 项 ， 那 么 accept 返 回 的 连接 
socket 将 自动 继承 这 些 选项 。 这 些 socket 选 项 包括 : SO_DEBUG、 
SO_DONTROUTE SO_KEEPALIVE、 SO_LINGER. 

SO_OOBINLINE SO_RCVBUF SO_RCVLOWAT SO_SNDBUF.、 
SO_SNDLOWAT、TCP_MAXSEG 和 TCP_NODELAY。 而 对 客户 端 而 
言 ， 这 些 socket 选 项 则 应 该 在 调用 connect 函 数 之 前 设置 ， 因 为 connect 调 
用 成 功 返 回 之 后 ，TCP 三 次 握手 已 完成 。 


下 面 我 们 详细 讨论 首 要 的 socket 选 项 。 


5.11.1 SO_REUSEADDR 选 项 


我 们 在 3.4.2 小 节 讨 论 过 TCP 连 接 的 TIME_WAIT 状 态 ， 并 提 到 服务 
器 程序 可 以 通过 设置 socket 选 项 SO_REUSEADDR 来 强制 使 用 被 处 于 
TIME_WAIT 状 态 的 连接 占用 的 socket 地 址 。 具 体 实现 方法 如 代码 清单 5- 
9 所 示 。 


代码 清单 5-9 重用 本 地 地 址 








int sock=socket (PF INET,SOCK STREAM,0); 

assert (sock~>>=0);，} 

int reuse=1;} 

setsockopt (sock, SOL SOCKET,SO REUSEADDR, &reuse,sizeof (reuse)); 
struct sockaddr in address; 

bzero (&address,sizeof (address)); 

address.sin family=AF INET; 

inet pton (AF INET,ip, 区 address .sin _addr); 

address.sin port=htons (port); 

int ret=bind(sock, (struct sockaddr*) &address,sizeof (address)); 
















































































经 过 setsockopt 的 设置 之 后 ， 即 使 sock 处 于 TIME_WAIT 状 态 ， 与 之 
绑 定 的 socket 地 址 也 可 以 立即 被 重用 。 此 外 ， 我 们 也 可 以 通过 修改 内 核 
参数 /proc/sys/net/ipv4/tcp_tw_recycle 来 快速 回收 被 关闭 的 socket， 从 而 使 
得 TCP 连 接 根 本 就 不 进入 TIME_WAIT 状 态 ， 进 而 允许 应 用 程序 立即 重 
用 本 地 的 socket 地 址 。 


5.11.2” SO_RCVBUF 和 SO_SNDBUF 选 项 


SO_RCVBUF 和 SO_SNDBUF 选 项 分 别 表示 TCP 接 收 缓冲 区 和 发 送 
缓冲 区 的 大 小 。 不 过 ， 当 我 们 用 setsockopt 来 设置 TCP 的 接收 缓冲 区 和 发 
送 缓冲 区 的 大 小 时 ， 系 统 都 会 将 其 值 加 倍 ， 并 且 不 得 小 于 某 个 最 小 值 。 
TCP 接 收 缓冲 区 的 最 小 值 是 256 字 节 ， 而 发 送 缓冲 区 的 最 小 值 是 2048 字 

不过， 不 同 的 系统 可 能 有 不 同 的 默认 最 小 值 ) 。 系 统 这 样 做 的 目 
的 ， 主 要 是 确保 一 个 TICP 连 接 拥有 足够 的 空闲 缓冲 区 来 处 理 拥塞 《比如 








快速 重 传 算法 就 期 望 TCP 接 收 缓冲 区 能 至 少 容纳 4 个 大 小 为 SMSS 的 TCP 





报 文 段 )”。 此 外 ， 我 们 可 以 直接 修改 内 核 参 
数 /proc/sys/net/ipv4/tcp_rmem 和 /proc/sys/net/ipv4/tcp_wmem 来 强制 TCP 
接收 缓冲 区 和 发 送 缓冲 区 的 大 小 没有 最 小 值 限制 。 我 们 将 在 第 16 章 讨论 


这 两 个 内 核 参 数 。 


下 面 我 们 编写 一 对 客户 端 和 服务 器 程序 ， 如 代码 清单 5-10 和 代码 清 
单 5-11 所 示 ， 它 们 分 别 修改 TCP 发 送 缓冲 区 和 接收 缓冲 区 的 大 小 。 


代码 清单 5-10 ”修改 TCP 发 送 缓冲 区 的 客户 端 程 序 





#include=sys/socket.h> 
#include=arpa/inet.h> 


#include=<assert.n> 
#include=stdio.h> 
#include=<=unistd.n> 
#include=string.h> 
#include=stdlib.n> 
#define BUFFER SIZE 
































512 





int main (int argc, char*argv[]) 


{ 
if (argc==2) 
{ 








printf ("usage:%s ip address port number 
send bufer size\n",basename (argv{[0])); 





return 1; 


} 


const char*ip=argv[1]; 





int port=atoi (argv[21); 
struct sockaddr in server address; 





bzero(&server address,sizeo 
server address.sin 1 














int sock=socket (PE _ 
assert (sock~>=0); 

















(server address)); 











family=AF INET; 
inet pton (AF INET,ip,&server address.sin addr); 
server address.sin port=htons (port); 











N 








ET, SOCK STREAM, 0); 





int sendbuf=atoi (argv[3]); 














int len=sizeof (sendbuf) 
/* 先 设置 TCE 发 送 缓冲 区 的 大 小 ， 然后 立即 读 取 之 */ 
setsockopt (sock, SOL SOCKET,SO SNDBUF, &sendbuf,sizeof (sendbuf)); 
getsockopt (sock, SOL SOCKET,SO SNDBUF, &sendbuf, (socklen t*) &len); 
printf("the tcp send buffer size after setting is%d\n",sendbuf); 
if (connect (sock, (struct sockadqdqrrx) 必 
server address,sizeof (server address))!=-1) 

{ 

char buffer[BUFFER SIZE]; 
memset (buffer,'a', BUFFER SIZE); 
send (sock, buffer, BUFFER SIZE,0); 
} 
close (sock); 
return 0; 


} 












































































































































代码 清单 5-11 ”修改 TCP 接 收 缓冲 区 的 服务 器 程序 





#include=<=sys/socket.nh> 
#include<netinet/in.h> 
#include=arpa/inet.h> 
#include=<=assert.hn> 
#include=stdio.h> 
#include=<=unistd.n> 
#include=stdlib.n> 
#include=<errno.h> 
#include=string.h> 
#define BUFFER SIZE 1024 
int main(int argc,char*argv|[]) 
{ 
if (argc==2) 
{ 
printf ("usage:%s ip address port number 
recv buffer size\n",basename (argv[0])); 
return 1; 
} 
const char*ip=argv[1]; 
int port=atoi (argv[21); 
struct sockaddr in address; 
bzero (&address,sizeof (address)); 
address.sin family=AF INET; 
inet pton (AF INET,ip,&address.sin addr); 
address.sin port=htons (port); 
int sock=socket (PF INET,SOCK STREAM,0); 
assert (sock~>>=0);， 





































































































int recvbuf=atoi (argv[3]); 
int len=sizeof (recvbuf); 
/x* 先 设置 TcCP 接 收 缓冲 区 的 大 小 ， 然 后 立即 读 取 之 */ 
setsockopt (sock, SOL SOCKET,SO RCVBUF, &recvbuf,sizeof (recvbuf)); 
getsockopt (sock, SOL SOCKET,SO RCVBUF, &recvbuf, (socklen t*) &len); 
printf("the tcp receive buffer size after settting 
isSd\n", recvbuf); 
int ret=bind(sock, (struct sockaddr*) &address,sizeof (address)); 



















































































assert (ret!=-1);) 
ret=listen (sock,5);} 

assert (ret!=-1);) 

struct sockaddr in client; 





socklen t client addrlength=sizeof (client); 

int connfd=accept (sock, (struct sockaddr*) &client,& 
client addrlength); 

if (connfd=0) 

{ 

printf ("errno is:%Sd\n",errno); 

} 

else 

{ 

char buffer[BUFFER S 

memset (buffer,'\0',BUFFER SIZE); 

while (recv (connfd,buffer,BUFFER SIZE-1,0)~0){} 

close (connftd) ， 

} 

close (sock); 

return 0; 


} 











































































































我 们 在 ernest-laptop 上 运行 代码 清单 5-11 所 示 的 服务 器 程序 (名 为 
set_recv_buffer) ， 然 后 在 Kongming20 上 运行 代码 清单 5-10 所 示 的 客户 
端 程 序 〈 名 为 set_send_buffer) 来 向 服务 器 发 送 512 字 节 的 数据 ， 然 后 用 
tcpdump 抓 取 这 一 过 程 中 双方 交换 的 TCP 报 文 段 。 具 体操 作 过 程 如 下 : 











$./set recv buffer 192.168.1.108 12345 50# 将 TCP 接 收 缓冲 区 的 大 小 设置 为 
50 字 节 
the tcp receive buffer size after settting is 256 
$./set send buffer 192.168.1.108 12345 2000# 将 TCP 发 送 缓冲 区 的 大 小 设置 
为 2 000 字 节 
the tcp send buffer size after setting is 4000 





















































$Stcpdump-nt-i eth0 port 12345 








从 服务 器 的 输出 来 看 ， 系 统 允许 的 TCP 接 收 缓冲 区 最 小 为 256 字 
节 。 当 我 们 设置 TCP 接 收 缓冲 区 的 大 小 为 50 字 节 时 ， 系 统 将 忽略 我 们 的 
设置 。 从 客户 端的 输出 来 看 ， 我 们 设置 的 TCP 发 送 缓冲 区 的 大 小 被 系统 
增加 了 一 倍 。 这 两 种 情况 和 我 们 前 面 讨论 的 一 致 。 下 面 是 此 次 TCP 通 信 
的 tcpdump 输 出 : 

















Telp L902 1068.17109 .380063 7192 :L601 L108 12345 :Tl1adgslS] ;Seg 
1425875256,win 14600,options[mss 1460,sackOK,TS val 7782289 ecr 
0,nop,wscale 4],length 0 













































































































































































2.1P 192.168.1 .108.12345>192.168,.1.109,.38663:Flags lS ]y Sed 
3109725840,ack 1425875257,win 192,o0ptions[mss 1460,sackOK,TS val 
126229160 ecr 7782289,nop,wscale 6],length 0 

3 TP 192 .1681.109.38663>192.168,. .108.42345: Flagsl |] ack ;NLn 
913,length 0 

4.1P .192.168.1.109.38663 宝 192.168.1.108.12345:Flags[lP.] ;Seq 
1:193,ack 1l,win 913,1lengtn 192 

5 了 上 192168 .108.12345>192.168.1.109,.38663rFlags[l. J ack 193, win 
0, length 0 

GLP 了 工 92.168.1 .08 12345 一 192 .68 109538663:E1agS[ .ack 193, wi 
3,length 0 

Filb 192,.168:1.109.38663 之 192.168.1:108.12345:PlagslP: lsegq 
193385 yack J ,win 013, length 192 

8 TP L926080 .T0822045 192.,. 168.1. 1090. 30663 TlagSs Et. |] 7ack 3 wt 
3,length 0 

久生 
3857D513.ack lywin 913 length, 128 

IOP L922. L680:L 108.12345>192,168,.1.109.38603 FLAQS [Ey | yaek 
513,win 3,lengthn 0 

Tol L972. L689. L1109.38063>192,168 ,1 .14108 L23457FLlAQS[F, | 7 Sed 
513,ack 1l,win 913,length 0 

12,1TP .1902168;,1,.108.12345192.168.1:10975386637PlagslF, | sedq lack 
514,win 3,length 0 

T1317TP T02168,1,109.38663.2192%5168, L108,123457Elagsls lrack 2, win 
913,length 0 











首先 注意 第 2 个 TCP 报 文 段 ， 它 指出 服务 器 的 接收 通告 窗口 大 小 为 








192 字 节 。 该 值 小 于 256 字 节 ， 显 然 是 在 情理 之 中 。 同 时 ， 该 同步 报 文 段 
还 指出 服务 器 采用 的 窗口 扩大 因子 是 6。 所 以 服务 器 后 续 发 送 的 大 部 分 

TCP 报 文 段 (6、8、10 和 12) 的 实际 接收 通告 窗口 大 小 都 是 3x24 字 节 ， 

即 192 字 节 。 因 此 客户 端 每 次 最 多 给 服务 器 发 送 192 字 节 的 数据 。 客 户 端 
一 共 给 服务 器 发 送 了 512 字 节 的 数据 ， 这 些 数据 必须 至 少 被 分 为 3 个 TCP 
报 文 段 (4、7 和 9) 来 发 送 。 





有 意思 的 是 TCP 报 文 段 5 和 6。 当 服务 器 收 到 客户 端 发 送 过 来 的 第 一 
批 数 据 (TCP 报 文 段 4) 时 ， 它 立即 用 TCP 报 文 段 5 给 予 了 确认 ， 但 该 确 
认 报 文 段 的 接收 通告 窗口 的 大 小 为 0。 这 说 明 TCP 模 块 发 送 该 确认 报 文 
段 时 ， 应 用 程序 还 没 来 得 及 将 数据 从 TCP 接 收 缓冲 中 读 出 。 所 以 此 时 客 
户 端 是 不 能 发 送 数 据 给 服务 器 的 ， 直 到 服务 器 发 送 一 个 重复 的 确认 报 文 
段 TCP 报 文 段 6〉 来 扩大 其 接收 通告 窗口 。 


5.11.3 SO_RCVLOWAT 和 SO_SNDLOWAT 选 项 


SO_RCVLOWAT 和 SO_SNDLOWAT 选 项 分 别 表示 TCP 接 收 缓冲 区 
和 发 送 缓冲 区 的 低 水 位 标记 。 它 们 一 般 被 TO 复 用 系统 调用 《〈 见 第 9 章 ) 
用 来 判断 socket 是 否 可 读 或 可 写 。 当 TCP 接 收 缓冲 区 中 可 读数 据 的 总 数 
大 于 其 低 水 位 标记 时 ，JIO 复 用 系统 调用 将 通知 应 用 程序 可 以 从 对 应 的 
socket 上 读 取 数 据 ; 当 TCP 发 送 缓冲 区 中 的 空 亲 空间 《可 以 写 入 数据 的 
空间 ) 大 于 其 低 水 位 标记 时 ，LIO 复 用 系统 调用 将 通知 应 用 程序 可 以 往 








对 应 的 socke 上 写 入 数据 。 


默认 情况 下 ，TCP 接 收 缓冲 区 的 低 水 位 标记 和 TCP 发 送 缓冲 区 的 低 
水 位 标记 均 为 1 字 节 。 


5.11.4 SO_LINGER 选 项 


SO_LINGER 选 项 用 于 控制 cose 系 统 调用 在 关闭 TCP 连 接 时 的 行 
为 。 默 认 情 况 下 ， 当 我 们 使 用 close 系 统 调用 来 关闭 一 个 socket 时 ，close 
将 立即 返回 ，TCP 模 块 负责 把 该 socket 对 应 的 TCP 发 送 缓冲 区 中 残留 的 
数据 发 送 给 对 方 。 


如 表 5-5 所 示 ， 设 置 获取) SO_LINGER 选 项 的 值 时 ， 我 们 需要 给 
setsockopt (getsockopt) 系统 调用 传递 一 个 linger 类 型 的 结构 体 ， 其 定义 
如 下 : 





#include=sys/socket.n> 

struct linger 

{ 

int 1 onoff;/* 开 启 〈 非 0) 还 是 关闭 (0) 该 选项 */ 
int 1 linger;/* 混 留 时 间 */ 

}; 



































根据 linger 结 构 体 中 两 个 成 员 变 量 的 不 同 值 ，close 系 统 调用 可 能 产 
生 如 下 3 种 行为 之 一 ; 


D1 onoff 等 于 0。 此 时 SO_LINGER 选 项 不 起 作用 ，close 用 默认 行为 


来 关闭 socket。 


口 ]_onoff 不 为 0，l_linger 等 于 0。 此 时 close 系 统 调用 立即 返回 ，TCP 
模块 将 丢弃 被 关闭 的 socket 对 应 的 TCP 发 送 缓冲 区 中 残留 的 数据 ， 同 时 
给 对 方 发 送 一 个 复位 报 文 段 〈( 见 3.5.2 小 节 ) 。 因 此 ， 这 种 情况 给 服务 器 
提供 了 异常 终止 一 个 连接 的 方法 。 


口 ]_onoff 不 为 0，]1_linger 大 于 0。 此 时 dlose 的 行为 取决 于 两 个 条 件 : 
一 是 被 关闭 的 socket 对 应 的 TCP 发 送 缓冲 区 中 是 否 还 有 残留 的 数据 ;二 
是 该 socket 是 阻塞 的 ， 还 是 非 阻塞 的 。 对 于 阻塞 的 socket，close 将 等 待 一 
段 长 为 ] linger 的 时 间 ， 直 到 TCP 模 块 发 送 完 所 有 残留 数据 并 得 到 对 方 的 
确认 。 如 果 这 段 时 间 内 TCP 模 块 没 有 发 送 完 残留 数据 并 得 到 对 方 的 确 
认 ， 那 么 close 系 统 调用 将 返回 -1 并 设置 errno 为 EWOULDBLOCK。 如 采 
socket 是 非 阻 塞 的 ，close 将 立即 返回 ， 此 时 我 们 需要 根据 其 返回 值 和 
errno 来 判断 残留 数据 是 否 已 经 发 送 完毕 。 关 于 阻塞 和 非 阻 塞 ， 我 们 将 在 


第 8 章 讨 论 。 








[1] ”确切 地 说 ，socket 在 执行 listen 调 用 前 是 不 能 称 为 监听 socket 的 ， 此 处 


是 指 将 执行 listen 调 用 的 socket。 


5.12 ”网络 信息 APIi 


socket 地 址 的 两 个 要 素 ， 即 IP 地 址 和 端口 号 ， 都 是 用 数值 表示 的 。 
这 不 便于 记忆 ， 也 不 便于 扩展 《比如 从 IPv4 转 移 到 IPv6) 。 因 此 在 前 面 
的 章节 中 ， 我 们 用 主机 名 来 访问 一 人 台 机 器 ， 而 避免 直接 使 用 其 了 地 址 。 
同样 ， 我 们 用 服务 名 称 来 代替 端口 号 。 比 如 ， 下 面 两 条 telnet 命 令 具 有 
完全 相同 的 作用 : 





telnet 127.0.0.1 80 
telnet localhost www 


























上 面 的 例子 中 ，telnet 客 户 端 程序 是 通过 调用 茶 些 网 络 信息 API 来 实 
现 主机 名 到 耳 地 址 的 转换 ， 以 及 服务 名 称 到 端口 号 的 转换 的 。 下 面 我 们 
将 讨论 网 络 信息 API 中 比较 重要 的 几 个 。 


5.12.1 gethostbyname 和 gethostbyaddr 


gethostbyname 函 数 根据 主机 名 称 获 取 主 机 的 完整 信息 
gethostbyaddr 函 数 根据 耳 地址 获取 主机 的 完整 信息 。gethostbyname 函 数 
通常 先 在 本 地 的 /etc/hosts 配 置 文件 中 但 找 主 机 ， 如 果 没 有 找到 ， 再 去 访 
问 DNS 服 务 器 。 这 些 在 前 面 章节 中 都 讨论 过 。 这 两 个 函数 的 定义 如 下 : 





#include=netdb.h> 





(Un 


truct hostent*gethostbyname (const charxname) 
struct hostent*gethostbyaddr (const void*addr,size t len,int type); 





























name 参 数 指定 目标 主机 的 主机 名 ，addr 参 数 指定 目标 主机 的 IP 地 
址 ，len 参 数 指定 addr 所 指 IP 地 址 的 长 度 ，type 参 数 指定 addr 所 指 IP 地 址 
的 类 型 ， 其 合法 取 值 包括 AF_INET (用 于 IPv4 地 址 ) 和 AF_INET6 (用 
于 IPv6 地 址 ) 。 


这 两 个 函数 返回 的 都 是 hostent 结 构 体 类 型 的 指针 ，hostent 结 构 体 的 
定义 如 下 : 





#include=<=netdb.h> 

struct hostent 

{ 

char*h name;/* 主 机 名 */ 

char**h aliases;/* 主 机 别名 列表 ， 可 能 有 多 个 */ 

int hn addrtype;/* 地 址 类 型 (地 址 族 ) */ 

int h_ length;/* 地 址 长 度 */ 

char**h_addr_1ist/* 按 网 络 字 节 序 列 出 的 主机 IP 地 址 列表 */ 
}; 




















5.12.2 getservbyname 和 getservbyport 


getservbyname 岗 数 根据 名 称 获取 某 个 服务 的 完整 信息 
getservbyport 函 数 根据 端口 号 获取 某 个 服务 的 完整 信息 。 它 们 实际 上 都 
过 读 取 /etc/services 文 件 来 获取 服务 的 信息 的 。 这 两 个 函数 的 定义 如 
下 : 





#include=netdb.h> 








UU 


truct servent*getservbyname (const char*name,const char*proto); 
struct servent*getservbyport (int port,const char*proto); 





























name 参 数 指定 目标 服务 的 名 字 ，port 参 数 指定 目标 服务 对 应 的 端口 
号 。proto 参 数 指定 服务 类 型 ， 给 它 传递 “tcp” 表 示 获 取 流 服务 ， 给 它 传 
递 “udp” 表 示 获 取 数 据 报 服务 ， 给 它 传递 NULEL 则 表示 获取 所 有 类 型 的 服 
务 。 





这 两 个 函数 返回 的 都 是 servent 结 构 体 类 型 的 指针 ， 结 构 体 servent 的 
定义 如 下 : 





#include<netdb.h> 

struet Servent 

{ 

char*s_name;/* 服 务 名 称 */ 

char**s_aliases;/* 服 务 的 别名 列表 ， 可 能 有 多 个 */ 
int s_port;/* 症 口号 */ 
char*s_proto;/* 服 务 类 型 ,通常 是 tcp 或 者 udp*/ 

}; 











下 面 我 们 通过 主机 名 和 服务 名 来 访问 目标 服务 右上 的 daytime 服 
务 ， 以 获取 该 机 器 的 系统 时 间 ， 如 代码 清单 5-12 所 示 。 


代码 清单 5-12 访问 daytime 服 务 





#includqe< sys/socket.h> 
#include=netinet/in.nh> 
#include=<=netdb.h> 
#include=stdio.h> 
#include=<=unistd.n> 
#include<=<assert.n> 

int main(int argc,char*argv[]) 


{ 











assert (ardCc==2) ， 
char*host=argv[1]; 
/* 获 取 目 标 主 机 地 址 信息 */ 
struct hostent*hostinfo=gethostbyname (host); 
assert (hostinfo) ， 
/* 获 取 daytime 服 务 信 息 */ 
struct servent*servinfo=getservbyname ("daytime", "tcp"); 
assert (servinfo);) 
printf("daytime port is%d\n",ntohs (servinfo-~>s port)); 
struct sockaddr in address; 
address.sin family=AF INET; 
address.sin port=servinfo-~>s port; 
/* 注 意 下 面 的 代码 ， 因 为 hn_addr_1ist 本 里 是 使 用 网 络 字 节 序 的 地 址 列表 ， 所 以 使 用 其 
中 的 IP 地 址 时 ， 无 须 对 目标 IP 地 址 转换 字 节 序 */ 
address.sin addr=*(struct in addr*)*hostinfo-~>h addr list; 
int sockfd=socket (AF INET,SOCK STREAM,0); 
int result=connect (sockfd, (struct sockadqdqrr) 放 
address,sizeof (addqress) ) ， 
assert (result!=-1); 
char buffer[128]; 
result=read (sockfd,buffer, sizeof (buffer)); 
assert (result~>>0);，; 
buffer[result]="'\0'; 
printf("the day tiem is:%s",buf 
close (sockfqd); 
return 07 


} 


































































































































































































需要 指出 的 是 ， 上 面 讨论 的 4 个 函数 都 是 不 可 重 入 的 ， 即 非 线程 安 
全 的 。 不 过 netdb.h 头 文件 给 出 了 它们 的 可 重 入 版 本 。 正 如 Linux 下 所 有 
其 他 函数 的 可 重 入 版 本 的 命名 规则 那样 ， 函数 的 函数 名 是 在 原 函 数 
名 尾部 加 上 _r (re-entrant) 


5.12.3 getaddrinfo 


getaddrinfo 函 数 既 能 通过 主机 名 获得 也 地 址 《内 部 使 用 的 是 


gethostbyname 函 数 ) ， 也 能 通过 服务 名 获得 端口 号 《内 部 使 用 的 是 
getservbyname 函 数 ) 。 它 是 否 可 重 入 取决 于 其 内 部 调用 的 gethostbyname 
和 getservbyname 国 数 是 否 是 它们 的 可 重 入 版 本 。 该 函数 的 定义 如 下 : 





#include=netdb.h> 
int getaddrinfo(const char*hostname,const char*service,const 
struct addrinfo*hints,struct addrinfo**result);} 




















hostname 参 数 可 以 接收 主机 名 ， 也 可 以 接收 字符 串 表 示 的 IP 地 址 
(CIPv4 采 用 点 分 十 进 制 字 符 串 ，IPv6 则 采用 十 六 进 制 字符 串 ) 。 同 样 ， 
service 人 参数 可 以 接收 服务 名 ， 也 可 以 接收 字符 串 表 示 的 十 进 制 端口 号 。 
hints 参 数 是 应 用 程序 给 getaddrinfo 的 一 个 提示 ， 以 对 getaddrinfo 的 输出 进 
行 更 精确 的 控制 。hints 参 数 可 以 被 设置 为 NULL， 表 示人 允许 getaddrinfo 
反馈 任何 可 用 的 结果 。result 参 数 指向 一 个 链表 ， 该 链表 用 于 存储 
getaddrinfo 反 馈 的 结 








getaddrinfo 有 反馈 的 每 一 条 结果 都 是 addrinfo 结 构 体 类 型 的 对 象 ， 结 构 
体 addrinfo 的 定义 如 下 : 








struct addrinfo 

{ 

int ai flags;/* 见 后 文 */ 
int ai family;/* 地 址 族 */ 
int ai socktype;/* 服 务 类 型 ，SOCK STREAM 或 SOCK DGRAM*/ 
int ai protocol;/* 见 后 文 */ 

socklen t ai addrlen;/*socket 地 址 ai adgr 的 长 度 */ 
char*ai canonname;/* 主 机 的 别名 */ 

struct sockaddr*ai addr;/* 指 问 socket 地 址 */ 

struct addrinfo*ai next;/* 指 同 下 一 个 sockinfo 结 构 的 对 象 */ 
}; 


















































冯 结 构 体 中 ， 


选 项 
AI PASSIVE 


AL_ CANONNAME 


AI NUMERICHOST 
AL NUMERICSERV 
AL V4MAPPED 


AI ALL 


AL ADDRCONFIG 


ai_protocol 成 员 是 指 具体 的 网 络 协 议 ， 其 含义 和 socket 
系统 调用 的 第 三 个 参数 相同 ， 它 通常 被 设置 为 0。ai_flags 成 员 可 以 取 表 
5-6 中 的 标志 的 按 位 或 。 


表 5-6 ai flags 成 员 


含义 


在 hints 参数 中 设置 ， 表 示 调 用 者 是 否 会 将 取得 的 socket 地 址 用 于 被 动 打开 。 服 务 
器 通常 需要 设置 它 ， 表 示 接 受 任何 本 地 socket 地 址 上 的 服务 请 求 。 客 户 端 程序 不 能 


设置 它 


在 hints 参数 中 设 


置 ， 告 诉 getaddrinfo 函数 返回 主机 的 别名 


在 hints 参数 中 设置 ， 表 示 hostname 必须 是 用 字符 串 表示 的 IP 地 址 ， 从 而 避免 了 


DNS 查询 


在 hints 参数 中 设置 ， 强 制 service 参数 使 用 十 进 制 端口 号 的 字符 串 形式 ， 而 不 能 是 


服务 名 


在 hints 参数 中 设 


置 。 如 果 ai_family 被 设置 为 AF INET6， 那 么 当 没有 满足 条 件 的 


IPv6 地 址 被 找到 时 ， 将 IPv4 地 址 映射 为 IPv6 地 址 
必须 和 AL V4MAPPED 同时 使 用 ， 否 则 将 被 忽略 。 表 示 同 时 返回 符合 条 件 的 IPv6 
地 址 以 及 由 IPv4 地 址 映射 得 到 的 IPv6 地 址 


仅 当 至 少 配 置 有 一 个 IPv4 地 址 (除了 回路 地 址 ) 时 ， 才 返回 IPv4 地 址 信息 ; 同 
样 ， 仅 当 至 少 配 置 有 一 个 IPv6 地 址 (除了 回路 地 址 ) 时 ， 才 返回 IPv6 地 址 信息 。 它 
和 AL V4MAPPED 是 互 斥 的 


当 我 们 使 用 hints 参 数 的 时 候 ， 可 以 设置 其 ai _flags，ai_family， 
ai_socktype 和 ai_protocol 四 个 字段 ， 其 他 字段 则 必须 被 设置 为 NULL。 例 
如 ， 代 人 码 清单 5-13 利 用 了 hints 参 数 获取 主机 ernest-laptop 上 的 “daytime” 流 


服务 信息 。 


代码 清单 5-13 ”使 用 getaddrinfo 岗 数 








struct addrin 
struct addrin 
bzero (&hints, 
hints.ai sock 














fo hints 
fo*res; 
sizeof (hints));} 
EAM; 








type=SOCK STR 





getaddrinfo("ernest-laptop","daytime", &hints, &res); 





从 代码 清单 5-13 中 我 们 能 分 析出 ，getaddrinfo 将 隐 式 地 分 配 堆 内 存 
(可 以 通过 valgrind 等 工具 查看 ) ， 因 为 res 指 针 原 本 是 没有 指向 一 块 合 
法 内 存 的 ， 所 以 ，getaddrinfo 调 用 结束 后 ， 我 们 必须 使 用 如 下 配对 函数 
来 释放 这 块 内 存 : 








#include=netdb.h> 
void freeaddrinfol(struct addrinfo*res); 














5.12.4 getnameinfo 





getnameinfo 函 数 能 通过 socket 地 址 同时 获得 以 字符 串 表 示 的 主机 名 
《内 部 使 用 的 是 gethostbyaddr 函 数 ) 和 服务 名 (内 部 使 用 的 是 
getservbyport 函 数 ) 。 它 是 否 可 重 入 取决 于 其 内 部 调用 的 gethostbyaddr 和 
getservbyport 函 数 是 否 是 它们 的 可 重 入 版 本 。 该 函数 的 定义 如 下 : 





#include<=netdb.n> 

int getnameinfo(const struct sockaddr*sockaddr,socklen t 
addrlen, char*host,socklen t hostlen,char*serv,socklen 七 servilen,int 
flags); 











getnameinfo 将 返回 的 主机 名 存储 在 host 参 数 指 问 的 缓存 中 ， 将 服务 
名 存储 在 serv 参 数 指 回 的 缓存 中 ，hostlen 和 servlen 参 数 分 别 指定 这 两 块 
缓存 的 长 度 。flags 参 数控 制 getmameinfo 的 行为 ， 它 可 以 接收 表 5-7 中 的 
选项 。 


表 5-7 flags 参数 














NI NAMEREQD 如 果 通 过 socket 地 址 不 能 获得 主机 名 ， 则 返回 一 个 错误 
返回 数据 报 服务 。 大 部 分 同时 支持 流 和 数据 报 的 服务 使 用 相同 的 端口 号 来 
A 提供 这 两 种 服务 。 但 端口 512~514 是 例外 。 比 如 TCP 的 514 端口 提供 的 是 
shell 登录 服务 ， 而 UDP 的 514 端口 提供 的 是 syslog 服务 (参见 /etc/services 
文件 》 
NI NUMERICHOST 返回 字符 串 表 示 的 IP 地 址 ， 而 不 是 主机 名 
NIL NUMERICSERV 返回 字符 串 表 示 的 十 进 制 端口 号 ， 而 不 是 服务 名 
又 返回 主机 域名 的 第 一 部 分 。 比 如 对 主机 名 nebula.testing.com，getnameinfo 
NI 本 nebula as 
getaddrinfo 和 getnameinfo 函 数 成 功 时 返回 0， 失 败 则 返回 错误 码 ， 可 


能 的 错误 码 如 表 5-8 所 示 。 


表 5-8 getaddrinfo 和 getnameinfo 返回 的 错误 码 








选 项 含 义 
EAI AGAIN 调用 临时 失败 ， 提 示 应 用 程序 过 后 再 试 
EAI BADFLAGS 非法 的 ai fags 值 
EAI FAIL 名 称 解 析 失 败 
EAI FAMILY 不 支持 的 ai _ family 参数 
EAI MEMORY 内 存 分 配 失败 
EAI NONAME 非法 的 主机 名 或 服务 名 
EAI OVERFLOW 用 户 提 供 的 缓冲 区 溢出 。 仅 发 生 在 getnameinfo 调用 中 


没有 支持 的 服务 ， 号 而 用 天 各 服务 类 型 来 查找 ssh 服务 。 因 为 ssh 
服务 只 能 使 用 流 服务 
不 支持 的 服务 类 型 。 如 果 hints.ai socktype 和 hints.ai protocol 不 一 


EAI SERVICE 


EAI SOCKTYPE 致 ， 比 如 前 者 指定 SOCK DGRAM， 而 后 者 使 用 的 是 IPROTO_TCP， 
则 会 触发 这 类 错误 
EAI SYSTEM 系统 错误 ， 错 误 值 存储 在 errno 中 


Linux 下 strerror 函 数 能 将 数值 错误 码 errno 转 换 成 易 读 的 字符 串 形 
式 。 同 样 ， 下 面 的 函数 可 将 表 5-8 中 的 错误 码 转换 成 其 字符 串 形 式 : 








#include<~netdb.h> 
const char*gai strerror(int error); 








Linux 提 供 了 很 多 高 级 的 /O 函 数 。 它 们 并 不 像 Linux 基 础 VO 函数 
(比如 open 和 read〉 那么 常用 《编写 内 核 模块 时 一 般 要 实现 这 些 IO 函 
数 ) ， 但 在 特定 的 条 件 下 却 表现 出 优秀 的 性 能 。 本 章 将 讨论 其 中 和 网 络 
编程 相关 的 几 个 ， 这 些 函 数 大 致 分 为 三 类 


口 用 于 创建 文件 描述 符 的 函数 ， 包 括 pipe、dup/dup2 函 数 。 





口 用 于 读 写 数据 的 函数 ， 包 括 readvwwritev、sendfile、 


mmap/mmunmap、splice 和 tee 函 数 。 


口 用 于 控制 WO 行为 和 属性 的 函数 ， 包 括 fcntl 函 数 。 
6.1 pipe 疯 数 


pipe 函 数 可 用 于 创建 一 个 管道 ， 以 实现 进程 间 通 信 。 我 们 将 在 13.4 
节 讨 论 如 何 使 用 管道 来 实现 进程 则 通信 ， 本 章 只 介绍 其 基本 使 用 方式 。 
pipe 函 数 的 定义 如 下 : 





#include=unistd.h> 
int pipe (int fq[2]); 











pipe 函 数 的 参数 是 一 个 包含 两 个 int 型 整数 的 数组 指针 。 该 函数 成 功 


时 返回 0， 并 将 一 对 打开 的 文件 描述 符 值 填 入 其 参数 指 癌 的 数组 。 如 果 
失败 ， 则 返回 -1 并 设置 ermo。 


通过 pipe 函 数 创建 的 这 两 个 文件 描述 符 fd[0] 和 fd[1] 分 别 构成 管道 的 
两 端 ， 往 fd[1] 写 入 的 数据 可 以 从 fd[0] 读 出 。 并 且 ，fd[0] 只 能 用 于 从 管道 
读 出 数据 ，fd[1] 则 只 能 用 于 往 管道 写 入 数据 ， 而 不 能 反 过 来 使 用 。 如 果 
要 实现 双向 的 数据 传输 ， 就 应 该 使 用 两 个 管道 。 默 认 情况 下 ， 这 一 对 文 
件 描 述 符 都 是 阻塞 的 。 此 时 如 果 我 们 用 read 系 统 调用 来 读 取 一 个 空 的 管 
道 ， 则 read 将 被 阻塞 ， 直 到 管道 内 有 数据 可 读 ， 如 果 我 们 用 write 系统 调 
用 来 往 一 个 满 的 管道 〈 见 后 文 ) 中 写 入 数据 ， 则 write 亦 将 被 阻 蹇 ， 直 到 
管道 有 足够 多 的 空闲 空间 可 用 。 但 如 果 应 用 程序 将 fd[0] 和 fd[1] 都 设置 为 
非 阻塞 的 ， 则 read 和 write 会 有 不 同 的 行为 。 关 于 阻塞 和 非 阻塞 的 讨论 ， 
见 第 8 章 。 如 果 管 道 的 写 端 文件 描述 符 fd[1] 的 引用 计数 〈 见 5.7 节 ) 减少 
至 0， 即 没有 任何 进程 需要 往 管道 中 写 入 数据 ， 则 针对 该 管道 的 读 端 文 
件 描述 符 fd[0] 的 read 操 作 将 返回 9，， 即 读 取 到 了 文件 结束 标记 (End Of 
File，EOF〉; 反之， 如 果 管 道 的 读 端 文件 描述 符 fd[0] 的 引用 计数 减少 
至 0， 即 没有 任何 进程 需要 从 管道 读 取 数 据 ， 则 针对 该 管道 的 写 端 文件 
摘 述 符 fd[1] 的 write 操 作 将 失败 ， 并 引发 SIGPIPE 信 号 。 关 于 SIGPIPE 信 


号， 我 们 将 在 第 10 章 讨论 。 




















管道 内 部 传输 的 数据 是 字 节 流 ， 这 和 TCP 字 节 流 的 概念 相同 。 但 二 
者 又 有 细微 的 区 别 。 应 用 层 程序 能 往 一 个 TCP 连 接 中 写 入 多 少 字 市 的 数 





据 ， 取 决 于 对 方 的 接收 通告 窗口 的 大 小 和 本 端的 拥塞 窗口 的 大 小 。 而 管 
道 本 身 拥 有 一 个 容量 限制 ， 它 规定 如 果 应 用 程序 不 将 数据 从 管道 读 走 的 
话 ， 该 管道 最 多 能 被 号 入 多 少 字 节 的 数据 。 自 Linux 2.6.11 内 核 起 ， 管 道 
容量 的 大 小 默认 是 65536 字 节 。 我 们 可 以 使 用 fcnt 函 数 来 修改 管道 容量 

〈 见 后 文 ) 。 


此 外 ，socket 的 基础 API 中 有 一 个 socketpair 函 数 。 它 能 够 方便 地 创 
建 双向 管道 。 其 定义 如 下 : 





#include=<=sys/types.h> 
#includqe< sys/socket.h> 
int Socketpair(int domain,int type,int protocol,int fd[2]); 











socketpair 前 三 个 参数 的 含义 与 socket 系 统 调用 的 三 个 参数 完全 相 
同 ， 但 domain 只 能 使 用 UNIX 本 地 域 协 议 族 AF_UNIX， 因 为 我 们 仅 能 在 
本 地 使 用 这 个 双向 管道 。 最 后 一 个 参数 则 和 pipe 系 统 调用 的 参数 一 样 ， 
只 不 过 socketpair 创 建 的 这 对 文件 描述 符 都 是 既 可 读 又 可 写 的 。 
socketpair 成 功 时 返回 0， 失 败 时 返回 -1 并 设置 errno。 














6.2 dup 函数 和 dup2 函 数 


有 了 时 我 们 希望 把 标准 输入 重 定 同 到 一 个 文件 ， 或 者 把 标准 输出 重 定 
回 到 一 个 网 络 连接 〈 比 如 CGI 编程 ) 。 这 可 以 通过 下 面 的 用 于 复制 文件 
描述 符 的 dup 或 dup2 函 数 来 实现 : 





#include<unistd.h> 
int qup (int file descriptor); 
int qup2 (int file descriptor one,int file descriptor two); 

















dup 函 数 创建 一 个 新 的 文件 描述 符 ， 该 新 文件 描述 符 和 原 有 文件 描 
述 符 file_descriptor 指 癌 相 同 的 文件 、 管 道 或 者 网 络 连 接 。 并 且 dup 返 回 
的 文件 描述 符 总 是 取 系 统 当前 可 用 的 最 小 整数 值 。dup2 和 dup 类 似 ， 不 

过 它 将 返回 第 一 个 不 小 于 file_descriptor_two 的 整数 值 。dup 和 dup2 系 统 
调用 失败 时 返回 -1 并 设置 errno。 


注意 ， 通 过 dup 和 dup2 创 建 的 文件 描述 符 并 不 继承 原文 件 描 述 符 的 
属性 ， 比 如 close-on-exec 和 non-blocking 等 。 


代码 清单 6-1 利 用 dup 函 数 实现 了 一 个 基本 的 CGI 服务 器 。 


代码 清单 6-1 CGI 服务 器 原理 





#include=sys/socket.h> 
#include<netinet/in.h> 
#include=arpa/inet.h> 





#include=<assert.n> 

#include=stdio.h> 

#include=<=unistd.n> 

#include=stdlib.n> 

#include=<errno.h> 

#include=string.h> 

int main(int argc,char*argv[]) 

{ 

if (argc==2) 

{ 

printf("usage:%s ip address port number\n",basename (argv{[0])); 
return 1; 

} 

const char*ip=argv[1]; 

int port=atoi (argv[21); 

struct sockaddr in address; 

bzero (&address,sizeof (address)); 
address.sin family=AF INET; 

inet pton (AF INET,ip,&address.sin addr); 
address.sin port=htons (port); 

int sock=socket (PF INET,SOCK STREAM,0); 
assert (sock~>>=0);，} 

int ret=bind(sock, (struct sockaddr*) &address,sizeof (address)); 
















































































assert (ret!=-1);} 
ret=listen (sock, 5);} 
assert (ret!=-1);} 








struct sockaddr in client; 

socklen t client addrlength=sizeof (client); 

int connfd=accept (sock, (struct sockaddr*) &client,& 
client addrlength); 

if (connfd=0) 

| 

Printf("ertno is:gsqNxn"yerzrno) ， 

} 

else 
{ 
Close (STDOUT FILENO); 
dup (Connfad) ， 
printf ("abcd\n"); 
close (connfdqd); 
} 
close (sock); 
return 0; 


} 


二 一 


















































在 代码 清单 6-1 中 ， 我 们 先 关 闭 标准 输出 文件 描述 符 
STDOUT_FILENO《〈 其 值 是 1) ， 然 后 复制 socket 文 件 描述 符 connfd。 
为 dup 总 是 返回 系统 中 最 小 的 可 用 文件 描述 符 ， 所 以 它 的 返回 值 实 际 上 
是 1， 即 之 前 关闭 的 标准 输出 文件 描述 符 的 值 。 这 样 一 来 ， 服 务 绒 输出 
到 标准 输出 的 内 容 〈 这 里 是 “abcd”) 就 会 直接 发 送 到 与 客户 连接 对 应 的 
socket 上 ， 因 此 printf 调 用 的 输出 将 被 客户 端 获得 〈 而 不 是 显示 在 服务 器 
程序 的 终端 上 ) 。 这 就 是 CGI 服务 器 的 基本 工作 原理 。 











6.3 ”readv 函 数 和 writev 函 数 


readv 函 数 将 数据 从 文件 插 述 符 读 到 分 散 的 内 存 块 中 ， 即 分 散 读 ; 
writev 函 数 则 将 多 块 分 散 的 内 存 数据 一 并 写 入 文件 描述 符 中 ， 即 集中 
写 。 它 们 的 定义 如 下 ; 





#include=<=sys/uio.h> 
ssize t readv(int fd,const struct iovec*vector,int count); 
ssize t writevl(int fd,const struct iovec*vector,int count); 

















fd 参数 是 被 操作 的 目标 文件 描述 符 。vector 参 数 的 类 型 是 iovec 结 构 
数组 。 我 们 在 第 5 章 讨论 过 结构 体 iovec， 该 结构 体 描 述 一 块 内 存 区 。 
count 参 数 是 vector 数 组 的 长 度 ， 即 有 多 少 块 内 存 数据 需要 从 fd 读 出 或 写 
到 fd。readv 和 writev 在 成 功 时 返回 读 出 / 写 入 fd 的 字 市 数 ， 失 败 则 返回 -1 
并 设置 ermo。 它 们 相当 于 简化 版 的 recvmsg 和 sendmsg 函 数 。 











考虑 第 4 章 讨论 过 的 Web 服 务 器 。 当 Web 服 务 器 解析 完 一 个 HITP 请 
求 之 后 ， 如 果 目 标 文 档 存 在 且 客 户 具 有 读 取 该 文档 的 权限 ， 那 么 它 就 需 
要 发 送 一 个 HITP 应 答 来 传输 该 文档 。 这 个 HTTP 应 答 包 含 1 个 状态 行 、 
多 个 头 部 字段 、1 个 空 行 和 文档 的 内 容 。 其 中 ， 前 3 部 分 的 内 容 可 能 被 
Web 服 务 器 放置 在 一 块 内 存 中 ， 而 文档 的 内 容 则 通常 被 读 入 到 另外 一 块 
单独 的 内 存 中 《通过 read 函 数 或 mmap 函 数 ) 。 我 们 并 不 需要 把 这 两 部 
分 内 容 拼接 到 一 起 再 发 送 ， 而 是 可 以 使 用 writev 函 数 将 它们 同时 写 出 ， 





如 代码 清单 6-2 所 示 。 


代码 清单 6-2 ”Web 服务 器 上 的 集中 写 





#include=<=sys/socket.h> 
#include<netinet/in.h> 
#include=<=arpa/inet.h> 


#include<=<assert.n> 
#include=stdio.h> 
#include=<=unistd.n> 
#include=stdlib.n> 
#include=<errno.h> 
#include=string.h> 
#include=<=sys/stat.hn> 





#include=<=sys/types.h> 














#include<fcntl.h> 





#define BUFFER SIZE 1024 
/* 定 义 两 种 HTTP 状 态 码 和 状态 信息 */ 




















static const char*status linel[ 


error™.};} 





int main(int argc,char*argv[]) 


{ 
if (argc==3) 
{ 








Z|"200 OK™; 


printf ("usage:%s ip address port number 





return 1; 


} 


const char*ip=argv[1]; 





int port=atoi (argv [2] 


/* 将 目标 文件 作为 程序 的 第 

















address.sin family=AF 





) ， 。 


三 个 参数 传 入 * / 
const char*file name=argv[3]; 
struct sockaddr in address; 
bzero (&address,sizeof 


filename\n",basename (argv{[0])); 








N 








(address));， 
Ey? 


inet pton (AF INET,ip,&address.sin addr); 











address.sin ee 











int sock=socket(P N 








assert (sock~>=0)，} 





ET, SOCK STREAM, 0); 


"500 





Internal server 








int ret=bind(sock, (struct sockaddr*) &address,sizeof (address)); 

















assert (ret!=-1);} 
ret=listen (sock, 5);} 
assert (ret!=-1);} 





struct sockaddr in client: 





socklen t client addrlength=sizeof (client); 





int connf 


client addrlength); 


1， 





if (connfd=0) 
{ 











printf ("errno is: 


} 


else 





d=accept (sock, (struct sockaddr*) &client,& 


Sd\n",errno); 


{ 
/x* 用 于 保存 HTTP 应 答 的 状态 行 、 头 部 字段 和 一 个 空 行 的 缓存 区 */ 





BUFF 




















char header bufl 
memset (header bu 








ER SIZE]; 
f,'\0', BUFFER SIZE); 






































7 用 了 大 目 标 文件 内 容 的 应 用 程序 缓存 */ 


char*file buf 











/> 用 于 获取 百 标 文件 的 属性 ， 比如 是 否 为 目录 ， 文 件 大 小 等 */ 











struct stat file stat; 











/* 记 录 目 标 文件 是 否 是 有 效 文 件 */ 





bool valid=true; 


/* 缓 存 区 header buf 


int len=0; 








{ 


valid=false; 


























} 
e] 
{ 
; 
{ 
valid=false; 


} 














if(stat (file name,& 





目前 








已 经 使 用 了 多 少 字 节 的 空间 */ 





file stat)<0) /* 目 标 文 件 不 存在 */ 





if(S ISDIR(file stat.st mode))/* 目 标 文 件 是 一 个 目录 */ 








else if(file stat.st mode&%S IROTH)/* 当 前 用 户 有 读 取 目标 文件 的 权限 */ 





{ 





De 分 配 缓 存 区 file buf， 




















然后 将 目标 文件 读 入 缓存 区 











并 指定 其 大 小 为 目标 文件 的 大 小 file stat.st size 加 


file buf 中 */ 











总 fd=open (file name,O RDONLY); 





file buf=new cha 


memset (file buf 























r [fi] 





yO 

















estat:st Sizetll]? 
file stat.st size+1); 














{ 


valid=false; 














valid=false; 


/* 如 果 目 标 文件 有 效 ， 


if (read (fd,file buf, 





file stat.st size)<=0) 


则 发 送 正常 的 HTTP 应 答 */ 


if (valid) 





{ 





/* 下 面 这 











加 入 header buf 
ret=snprintf 
TeSe\E NNT," 


len+=ret; 


ret=snprintf 
Lengthn:%d\r\n",f 


len+=ret，; 


ret=snprintf 








中 */ 

















HTTP/1.; 


部 分 内 容 将 HTTP 应 答 的 状态 行 、 








, BUFF 


Content-Length7 头 部 字段 和 一 个 空 行 依次 











(header buf 
1l1",status 


(header buf 





+len, 


PR _S 


linel[ 





BUFFE 








Lu 











SIZE-1-len,"Content-— 





(header buf 


f+len, 


ile stat.st size); 


BUFEFE 











S ZE '-1-len, UA Me Ne 多 








/* 利 用 writev 将 header . bu 














EAEile buf 





























struct iovec iv[2]; 

iv[0] .iov base=header buf; 

iv[0] .iov len=strlen (header buf); 
iv[1] .iov base=file buf; 
iv[l1].iov len=file stat.st size; 
ret=writev (connfd, iv,2); 


} 
else/* 如 果 目 标 文件 无 效 ， 则 通 


{ 


ret=snprintf 
ly "Sess\r Nn "HTTP/L Ly Status.. 


len+=ret; 


ret=snprintf 
send (connf 


} 


close (connf 
deletel[]f 


} 














d,header buf 


d); 





e_bu 








(header buf 











, BUFF 











内 容 一 并 写 出 */ 





知客 户 端 服务 器 发 生 了 "内 部 错误 “*/ 





PR S 





ZE 





(header buf 


linel 











f+len, 





BUFF 


Dj) 








ER 





S ZE 一 1 -eny We 7 有 NEA 人 人 学 

















close (sock); 
return 0; 


} 








Strlen (header buf),0); 





代码 清单 6-2 中 ， 我 们 省 略 了 HTTP 请 求 的 接收 及 解析 ， 因 为 现在 关 
HTTP 应 答 的 有 发送 。 我 们 直接 将 目标 文件 作为 第 3 个 参数 传递 
给 服务 器 程序 ， 客 户 telnet 到 该 服务 器 上 即 可 获得 该 文件 。 关 于 HTTP 请 
求 的 解析 ， 我 们 将 在 第 8 章 给 出 相关 代码 。 


注 的 重点 是 





6.4 sendfile 函 数 


sendfile 函 数 在 两 个 文件 描述 符 之 间 直 接 传 递 数据 《〈 完 全 在 内 核 中 操 
作 ) ， 从 而 避免 了 内 核 缓冲 区 和 用 户 缓 冲 区 之 间 的 数据 拷贝 ， 效 率 很 
高 ， 这 被 称 为 零 拷 贝 。sendfile 函 数 的 定义 如 下 : 








#include=<=sys/sendfile.n> 
ssize t sendfile(int out fqd,int in fd,off t*offset,size t count); 



































in_fd 参 数 是 待 读 出 内 容 的 文件 描述 符 ，out_fd 参 数 是 待 写 入 内 容 的 
文件 描述 符 。offset 参 数 指定 从 读 入 文件 流 的 哪个 位 置 开 始 读 ， 如 果 为 
空 ， 则 使 用 读 入 文件 流 默认 的 起 始 位 置 。count 参 数 指定 在 文件 描述 符 
in_fd 和 out_fd 之 间 传 输 的 字 节 数 。sendfile 成 功 时 返回 传输 的 字 节 数 ， 失 
败 则 返回 -1 并 设置 ermo。 该 函数 的 man 手 册 明 确 指出 ，in_fd 必 须 是 一 个 
支持 类 似 mmap 函 数 的 文件 描述 符 ， 即 它 必须 指向 真实 的 文件 ， 不 能 是 
socket 和 管道 ， 而 out_fd 则 必须 是 一 个 socket。 由 此 可 见 ，sendfile 几 乎 是 
专门 为 在 网 络 上 传输 文件 而 设计 的 。 下 面 的 代码 清单 6-3 利 用 sendfile 函 
数 将 服务 器 上 的 一 个 文件 传送 给 客户 端 。 





代码 清单 6-3 ”用 sendfile 函 数 传输 文件 





#include=sys/socket.h> 
#include<netinet/in.h> 
#include=<=arpa/inet.h> 
#include=<assert.n> 





#include=stdio.h> 
#include=<=unistd.n> 
#include=stdlib.n> 
#include=<=errno.h> 
#include=string.h> 
#include=<=sys/types.h> 
#include=<=sys/stat.h> 
#include=<fcntl.h> 

















#include=sys/sendi 





file.hn> 


int main(int argc,char*argv[]) 


{ 
if (argc 所 =3) 
{ 








printf ("usage:%s ip address port number 





return 1; 


} 


filename\n",basename (argv{[0])); 


const char*ip=argv[1]; 





int port=atoi (argv[21); 

const char*file name=argv[3]; 

file name,O RDONLY); 
assert(filefd > 0)> 














int filefd=open ( 


























struct stat stat buf; 


六 





























fstat (filefd, &stat buf); 
struct sockaddr in address; 





bzero (&address,sizeof (address)); 
address.sin family=AF INET; 











inet pton (AF_ 




















address.sin port=htons (port); 


int sock=socket (PF 
assert (sock~>=0)，} 
int ret=bind(sock, (struct sockaddr*) &address,sizeo 


小 


assert (ret!=-1 























ret=listen (sock, 5);} 














1); 


assert (ret!=-1 


struct sockaddr in client; 
socklen t client addrlength=sizeof (client); 





int connfd=accept (sock, (si 


client addrlength); 





if (connfd=0) 
{ 














printf ("errno is:%d\n",errno); 





} 


else 


{ 











file 








NET, ip, &address.sin addr); 


NET,SOCK STREAM,0); 








sendfile (conn 





} 


i 
close (connfd);} 


Ed, NULL, stat bui 


Ft S12E)S 





f (address) ) ， 


truct sockaddr*) &client,& 


close (sock); 
return 0; 


} 


代码 清单 6-3 中 ， 我 们 将 目标 文件 作为 第 3 个 参数 传递 给 服务 器 程 
序 ， 客 户 telnet 到 该 服务 右上 即 可 获得 该 文件 。 相 比 代码 清单 6-2， 代 码 
清单 6-3 没 有 为 目标 文件 分 配 任 何 用 户 空 间 的 缓存 ， 也 没有 执行 读 取 文 
件 的 操作 ， 但 同样 实现 了 文件 的 发 送 ， 其 效率 显然 要 高 得 多 。 











6.5 ”mmap 了 水 数 和 munmap 逊 数 


mmap 函 数 用 于 申请 一 段 内 存 空间 。 我 们 可 以 将 这 段 内 存 作 为 进程 

通信 的 共享 内 存 ， 也 可 以 将 文件 直接 映射 到 其 中 。munmap 函 数 则 释 
放 由 mmap 创 建 的 这 段 内 存 空间 。 它 们 的 定义 如 下 : 

#include=sys/mman.h> 

void*mmap (void*start,size t length,int prot,int flags,int fd,off t 


offset); 
int munmap (void*start,size t length); 






































start 参 数 允 许 用 户 使 用 某 个 特定 的 地 址 作为 这 段 内 存 的 起 始 地 址 。 
如 有 果 它 被 设置 成 NULL， 则 系统 自动 分 配 一 个 地 址 。length 参 数 指定 内 存 
段 的 长 度 。prot 参 数 用 来 设置 内 存 段 的 访问 权限 。 它 可 以 取 以 下 几 个 值 
的 按 位 或 : 


DPROT_READ， 内 存 段 可 读 。 
DPROT_WRITE， 内 存 段 可 写 。 
DPROT_EXEC， 内 存 段 可 执行 
DPROT_NONE， 内 存 段 不 能 被 访问 。 


flags 参 数控 制 内 存 段 内 容 被 修改 后 程序 的 行为 。 它 可 以 被 设置 为 表 


6-1 中 的 某 些 值 (这 里 仪 列 出 了 常用 的 值 〉 的 按 位 或 (其 中 
MAP _ SHARED 和 MAP PRIVATE 是 互 斥 的 ， 不 能 同时 指定 ) 。 


表 6-1 mmap 的 flags 参数 的 常用 值 及 其 含义 

常用 值 含 人 

在 进程 间 共享 这 段 内 存 。 对 该 内 存 段 的 修改 将 反映 到 被 映射 的 文件 中 。 它 提供 了 进程 
间 共 享 内 存 的 POSIX 方法 
MAP PRIVATE 内 存 段 为 调用 进程 所 私有 。 对 该 内 存 段 的 修改 不 会 反映 到 被 映射 的 文件 中 

这 段 内 存 不 是 从 文件 映射 而 来 的 。 其 内 容 被 初始 化 为 全 0。 这 种 情况 下 ，mmap 函数 
的 最 后 两 个 参数 将 被 忽略 

内 存 段 必须 位 于 start 参数 指定 的 地 址 处 。start 必须 是 内 存 页 面 大 小 〈4096 字 节 ) 的 
整数 倍 

按照 “大 内 存 页 面 ” 来 分 配 内 存 空间 。“ 大 内 存 页 面 ”的 大 小 可 通过 /proc/meminfo 文 
件 来 查看 





MAP SHARED 





MAP ANONYMOUS 





MAP_ FIXED 























MAP HUGETLB 


fd 参数 是 被 映射 文件 对 应 的 文件 描述 符 。 它 一 般 通 过 open 系 统 调用 
获得 。offset 参 数 设置 从 文件 的 何 处 开始 映射 《对 于 不 需要 读 入 整个 文 
件 的 情况 ) 。 





mmap 峭 数 成 功 时 返回 指 同 目标 内 存 区 域 的 指针 ， 失 败 则 返回 
MAP_FAILED ((void*)-1) 并 设置 errno。munmap 函 数 成 功 时 返回 0， 失 
败 则 返回 -1 并 设置 errno。 





我 们 将 在 第 13 间 进一步 讨论 如 何 利用 mmap 函 数 实现 进程 间 共 至 内 
存 。 


6.6 splice 函 数 


splice 函 数 用 于 在 两 个 文件 描述 符 之 间 移 动 数据 ， 也 是 零 找 贝 操 
作 。splice 函 数 的 定义 如 下 : 






































#include<fcntl.h> 
ssize t splicel(int fd inv off t*off in,int 
fd out,loff t*off out,size 七 len,unsigned int flags); 


























fd_in 参 数 是 待 输入 数据 的 文件 描述 符 。 如 果 fd_in 是 一 个 管道 文件 
描述 符 ， 那 么 off_in 参 数 必 须 被 设置 为 NULL。 如 果 fd_in 不 是 一 个 管道 
文件 描述 符 《〈 比 如 socket) ， 那 么 offt_ in 表示 从 输入 数据 流 的 何 处 开始 读 
取 数 据 。 此 时 ， 若 off in 被 设置 为 NULL， 则 表示 从 输入 数据 流 的 当前 偏 
移 位 置 读 入 ; 若 off_in 不 为 NULL， 则 它 将 指出 具体 的 偏 移 位 置 。 
fd_out/off_out 参 数 的 含义 与 fd_in/off_in 相 同 ， 不 过 用 于 输出 数据 流 。len 
参数 指定 移动 数据 的 长 度 ，flags 参 数 则 控制 数据 如 何 移动 ， 它 可 以 被 设 
置 为 表 6-2 中 的 某 些 值 的 按 位 或 。 

表 6-2 splice 的 flags 参数 的 常用 值 及 其 含义 
常用 值 含 义 


如 果 合 适 的 话 ， 按 整 页 内 存 移动 数据 。 这 只 是 给 内 核 的 一 个 提示 。 不 过 ， 因 为 它 
的 实现 存在 BUG， 所 以 自 内 核 2.6.21 后 ， ee 上 没有 任何 效果 





SPLICE F MOVE 


SPLICE F NONBLOCK 非 阻 塞 的 splice 操作 ， 但 实际 效果 还 会 受 文件 描述 符 本 身 的 阻塞 状态 的 影响 
SPLICE F MORE 给 内 核 的 一 个 提示 : 后 续 的 splice 调用 将 读 取 更 多 数据 





SPLICE F_GIFT 对 splice 没有 效果 





使 用 splice 函 数 时 ，fd_in 和 fd_out 必 须 至 少 有 一 个 是 管道 文件 描述 
符 。splice 函 数 调用 成 功 时 返回 移动 字 节 的 数量 。 它 可 能 返回 0， 表 示 没 
有 数据 需要 移动 ， 这 发 生 在 从 管道 中 读 取 数 据 〈fd_in 是 管道 文件 描述 
符 ) 而 该 管道 没有 被 写 入 任何 数据 时 。splice 函 数 失 败 时 返回 -1 并 设置 
errmo。 常 见 的 errno 如 表 6-3 所 示 。 











表 6-3 splice 函数 可 能 产生 的 errno 及 其 含义 














错 误 含 区 

EBADF 参数 所 指 文件 描述 符 有 错 

A 目标 文件 系统 不 支持 splice， 或 者 目标 文件 以 追加 方式 打开 ， 或 者 两 个 文件 描述 符 都 不 是 管道 文 
件 描述 符 ， 或 者 某 个 offset 参数 被 用 于 不 支持 随机 访问 的 设备 (比如 字符 设备 ) 

ENOMEM 内 存 不 够 

ESPIPE 参数 fd_in (或 fd_out) 是 管道 文件 描述 符 ， 而 off in (或 off out) 不 为 NULL 


下 面 我 们 使 用 splice 函 数 来 实现 一 个 零 拷 贝 的 回 射 服务 器 ， 它 将 客 
户 端 发 送 的 数据 原样 返回 给 客 尸 端 ， 有 具体 实现 如 代码 清单 6-4 所 示 。 


代码 清单 6-4 ”使 用 splice 函 数 实 现 的 回 射 服务 器 





#include=sys/socket.h> 
#include<netinet/in.h> 
#include=<=arpa/inet.h> 
#include=<=assert.n> 
#include=stdio.h> 
#include=<=unistd.n> 
#include=stdlib.n> 
#include=<=errno.h> 
#include=string.h> 
#include=<fcntl.h> 

Int main(int argc,char*argv|[]) 
{ 

if (argc==2) 

{ 

printf("usage:%s ip address Port number\n",basename (argv{[0])); 
return 1; 























} 

const char*ip=argv[1]; 

int port=atoi (argv[21); 

struct sockaddr in address; 

bzero (&address,sizeof (address)); 
address.sin family=AF INET; 

inet pton (AF INET,ip,&address.sin addr); 
address.sin port=htons (port); 

int sock=socket (PF INET,SOCK STREAM,0); 
assert (sock>>=0);，} 

int ret=bind(sock, (struct sockaddr*) &address,sizeof (address)); 




































































assert (ret!=-1);) 
ret=listen (sock,5);} 
assert (ret!=-1);) 





struct sockaddr in client; 
socklen 七 client _addrlength=sizeof (client); 
int connfd=accept (sock, (struct sockaddr*) &client,& 
client addrlength); 
if (connfd=0) 
{ 
printf ("errno is:%Sd\n",errno); 
} 
else 
{ 
int pipefd[2]; 
assert (ret!=-1);) 
ret=pipe (pipefd) ;/* 创 建 管道 */ 
/* 将 connfd 上 流入 的 客户 数据 定向 到 管道 中 */ 
ret=splice (connfd,NULL,pipefd[1],NULL,32768,SPLICE F MORE|SPLICE F 
assert (ret!=-1); 
/* 将 管道 的 输出 定向 到 connfd 客 户 连 接 文件 描述 符 */ 
ret=splice (pipefd[0],NULL,connfd,NULL,32768,SPLICE F MORE|SPLICE F 
assert (ret!=-1); 
close (connfd); 
} 
close (sock); 
return 0; 


} 




























































































































































































我 们 通过 splice 函 数 将 客户 端的 内 容 读 入 到 pipefd[1] 中 ， 然 后 再 使 用 
splice 函 数 从 pipefd[0] 中 读 出 该 内 容 到 客户 端 ， 从 而 实现 了 简单 高 效 的 回 
射 服务 。 整 个 过 程 未 执行 recvsend 操 作 ， 因 此 也 未 涉及 用 户 空间 和 内 核 





空间 之 间 的 数据 拷贝 。 


6.7 tee 国 数 


tee 函 数 在 两 个 管道 文件 捅 述 符 之 间 复 制 数据 ， 也 是 零 捞 贝 操作 。 它 
不 消耗 数据 ， 因 此 源 文 件 描述 符 上 的 数据 仍然 可 以 用 于 后 续 的 读 操作 。 
tee 函 数 的 原型 如 下 : 





#include=<=fcntl.h> 
ssize t tee(int fq in,int fd out,size t len,unsigned int flags); 























该 函数 的 参数 的 含义 与 splice 相 同 ( 但 fd_in 和 fd_out 必 须 都 是 管道 
件 描述 符 ) 。tee 函 数 成 功 时 返回 在 两 个 文件 摘 述 符 之 间 复 制 的 数据 数量 
《 字 节 数 ) 。 返 回 0 表示 没有 复制 任何 数据 。tee 失 败 时 返回 -1 并 设置 


elIIIO。 


代码 清单 6-5 利 用 tee 函 数 和 splice 函 数 ， 实 现 了 Linux 下 tee 程 序 ( 同 
时 输出 数据 到 终端 和 文件 的 程序 ， 不 要 和 tee 函 数 混 淆 ) 的 基本 功能 


代码 清单 6-5 ”同时 输出 数据 到 终端 和 文件 的 程序 








//filename:tee.cpp 
#include=<assert.nhn> 
#include=stdio.h> 
#include=<=unistd.n> 
#include=<=errno.h> 
#include=string.h> 
#include<=<fcntl.h> 

int main(int argc,char*argv[]) 


{ 























if (argc!=2) 

{ 

printf ("usage:%$s<file>\n",argv{[0]); 
FEtUEN, 12 











int filefd=open(argv[1],O CREAT|O WRONLY|O TRUNC,0666); 
assert (filefd>>0)， 
int pipefd stdout[2]; 
int ret=pipe (pipefd stdout); 
assert (ret!=-1);) 
int pipefd file[2]; 
ret=pipe (pipefd file); 
assert (ret!=-1);，} 
/* 将 标准 输入 内 容 输 入 管道 pipefqd stqdout*/ 
ret=splice (STDIN FILENO,NULL,Ppipefd stdout[1],NULL,32768,SPLICE F 
assert (ret!=-1);) 
/x* 将 管道 pipefd_stdout 的 输出 复制 到 管道 pipefd_file 的 输入 端 */ 
ret=tee (pipefd stqout [0],pPipefq file[1],32768,SPLICE F NONBLOCK); 
assert (ret!=-1); 
/* 将 管道 pipefq file 的 输出 定 问 到 文件 描述 符 Eilefd 上 ， 从 而 将 标准 输入 的 内 容 写 入 
文件 */ 
ret=splice (pipefd file[0],NULL,filefd,NULL,32768,SPLICE F MORE|SPL 
assert (ret!=-1);) 
/x* 将 管道 pipefd_stdout 的 输出 定向 到 标准 输出 ， 其 内 容 和 号 入 文件 的 内 容 完全 一 致 */ 
ret=splice (pipefd stdout[0],NULL,STDOUT FILENO,NULL,32768,SPLICE F 
assert (ret!=-1);) 
lose (filefd); 
lose (pipefd stdout 
lose (pipefd stdout 
lose (pipefd filel[d0 
lose (pipefd f 1 
return 0; 


} 


ee | 



























































































































































































































































































































































NA QA NA NA oa 











6.8 ”fcntl 据 数 


fcntl 函 数 ， 正 如 其 名 字 (file control) 描述 的 那样 ， 提 供 了 对 文件 
描述 符 的 各 种 控制 操作 。 为 外 一 个 常见 的 控制 文件 描述 符 属性 和 行为 的 
系统 调用 是 ioctl， 而 且 ioctl 比 fentl 能 够 执行 更 多 的 控制 。 但 是 ， 对 于 控 
制 文 件 描述 符 常 用 的 属性 和 行为 ，fcntl 函 数 是 由 POSIX 规 范 指定 的 首选 
方法 。 所 以 本 书 仅 讨 论 fcntl 函 数 。fcntl 函 数 的 定义 如 下 : 


#include=<=fcntl.h> 
int fcntl (int fd,int cmd,...); 























fd 参数 是 被 操作 的 文件 描述 符 ，cmd 参 数 指定 执行 何 种 类 型 的 操 
作 。 根 据 操作 类 型 的 不 同 ， 该 函数 可 能 还 需要 第 三 个 可 选 参 数 arg。fentl 
函数 文 持 的 常用 操作 及 其 参数 如 表 6-4 所 示 。 





表 6-4 fcntl 支持 的 常用 操作 及 其 参数 


第 三 个 参数 


_DUPFD 创建 一 个 新 的 文件 描述 符 ， 其 值 大 于 新 创建 的 文件 描述 符 


复制 文件 描述 或 等 于 arg 的 值 
符 F_DUPFD_ 与 F_DUPFD 相似 ， 不 过 在 创建 文件 描 新 创建 的 文件 描述 符 
CLOEXEC 述 符 的 同时 ， 设 置 其 close-on-exec 标志 的 值 


获取 fd 的 标志 ， 比 如 close-on-exec 


标志 


获取 和 设置 文 | F_GETFD 亿 的 标志 


件 描述 符 的 标志 





F_SETFD 设置 fd 的 标志 0 
获取 fd 的 状态 标志 ， 这 些 标志 包括 
可 由 open 系统 调用 设置 的 标志 (O_ 
获取 和 设置 文 | F_GETFL |APPEND、O_CREAT 等 ) 和 访问 模 void fd 的 状态 标志 
件 描述 符 的 状态 式 (O RDONLY、O WRONLY 和 0O_ 
标志 RDWR) 
设置 fd 的 状态 标志 ， 但 部 分 标志 是 不 
F SETFL 网 慰 和 人 部 分 标 未 是 不 [5 0 
一 能 被 修改 的 (比如 访问 模式 标志 ) 
天 得 SIGIO 和 SIGURG 信号 的 宿主 进 言 号 的 宿主 进程 也 
F_GETOWN 获得 . 和 信号 的 宿主 进 无 信号 | 和 主 过 各 J 
程 的 PID 或 进程 组 的 组 ID PID 或 进程 组 的 组 ID 
设 定 SIGIO 和 SIGURG 信号 的 宿主 
F_SETOWN |,, EE WO 和 和 ee J 宿主 进 0 
管理 信号 程 的 PID 或 者 进程 组 的 组 ID 
四 村 局 + “i i 所 7 2 4 -一 
一 E GETSIG | 获取 当 应 用 程序 被 通知 亿 可 读 或 可 写 信号 值 ，0 表示 
J vp frr Eby MH- hk 
时 ， 是 哪个 信号 通知 该 事件 的 SIGIO 
设置 当 他 可 读 或 可 写 时 ， 系 统 应 该 触 
| ys 各 入 三 呈 坟 long 0 
发 哪个 信和 号 来 通知 应 用 程序 
( 续 ) 
操作 分 类 成 功 时 的 返回 值 
设置 由 人 锯 指 定 的 管道 的 容量 。/proc/sys/ 
fs/pipe-size-max 内 核 参 数 指定 了 fentl 能 设 0 
操作 管道 容量 置 的 管道 容量 的 上 限 
F_GETPIPE - 
Ee -| 获取 由 癸 指 定 的 管道 的 容量 管道 容量 











fcntl 函 数 成 功 时 的 返回 值 如 表 6-4 最 后 一 列 所 示 ， 失 败 则 返回 -1 并 设 


置 ermo。 


在 网 络 编程 中 ，fcnt 函 数 通常 用 来 将 一 个 文件 描述 符 设 置 为 非 阻塞 


的 ， 如 代码 清单 6-6 所 示 。 


代码 清单 6-6 ”将 文件 描述 符 设 置 为 非 阻 寨 的 














int setnonblocking (int fqd) 
{ 
int old option=fcntl (fa,F_GETFL) ;/* 获 取 文 件 描述 符 旧 的 状态 标志 */ 
int new option=old option|0O NONBLOCK;/* 设 置 非 阻 塞 标 志 */ 

fcntl (fd,F SETFL,new option); 
return old_option;/* 返 回 文件 描述 符 旧 的 状态 标志 ， 以 便 */ 
/* 日 后 恢复 该 状态 标志 */ 

} 



























































此 外 ，SIGIO 和 SIGURG 这 两 个 信号 与 其 他 Linux 信 号 不 同 ， 它 们 必 
须 与 菜 个 文件 描述 符 相 关联 方 可 使 用 : 当 被 关联 的 文件 描述 符 可 读 或 可 
写 时 ， 系 统 将 触发 SIGIO 信 号 ; 当 被 关联 的 文件 描述 符 《〈 而 且 必 须 是 一 
个 socket) 上 有 带 外 数据 可 读 时 ， 系 统 将 触发 SIGURG 信 和 号。 将 信号 和 
文件 描述 符 关联 的 方法 ， 就 是 使 用 fcntl 函 数 为 目标 文件 描述 符 指 定 宿主 
进程 或 进程 组 ， 那 么 被 指定 的 宿主 进程 或 进程 组 将 捕获 这 两 个 信号 。 使 
用 SIGIO 时 ， 还 需要 利用 fcntl 设 置 其 O_ASYNC 标 志 ( 异 步 WO 标 志 ， 不 
过 SIGIO 信 号 模型 并 非 真 正 意义 上 的 异步 WO 模型 ， 见 第 8 章 ) 。 关 于 信 
写 SIGURG 的 更 多 内 容 ， 我 们 将 在 第 10 章 讨论 。 





第 7 章 Linux 服 务 器 程序 规范 


除了 网 络 通 信 外 ， 服 务 器 程序 通 第 还 必须 考虑 许多 其 他 细节 问题 。 
这 些 细 市 问题 涉及 面 广 旦 零 雄 ， 而 且 基 本 上 是 模板 式 的 ， 所 以 我 们 称 之 
为 服务 器 程序 规范 。 比 如 : 


DLinux 服 务 器 程序 一 般 以 后 台 进 程 形式 运 行 。 后 台 进 程 又 称 守 护 
进程 (daemon) 。 它 没有 控制 终端 ， 因 而 也 不 会 意外 接收 到 用 户 输入 。 
守护 进程 的 父 进程 通常 是 init 进 程 〈PID 为 1 的 进程 ) 。 





DLinux 服 务 器 程序 通常 有 一 套 日 志 系 统 ， 它 至 少 能 输出 日 志 到 文 
件 ， 有 的 高 级 服务 器 还 能 输出 日 志 到 专门 的 UDP 服 务 嚣 。 大 部 分 后 台 进 
程 都 在 /var/log 目 录 下 拥有 自己 的 日 志 目 录 。 











口 Linux 服 务 器 程序 一 般 以 某 个 专门 的 非 root 吴 份 运行 。 比 如 
mysqld、httpd、syslogd 等 后 台 进 程 ， 分 别 拥有 自己 的 运行 账户 mysql、 





apache 和 syslog。 





DLinux 服 务 器 程序 通常 是 可 配置 的 。 服 务 器 程序 通常 能 处 理 很 多 
命令 行 选项 ， 如 果 一 次 运行 的 选项 太 多 ， 则 可 以 用 配置 文件 来 管理 。 缀 
大 多 数 服 务 器 程序 都 有 配置 文件 ， 并 存放 在 /etc 目 录 下 。 比 如 第 4 章 讨论 
的 squid 服 务 器 的 配置 文件 是 /etc/squid3/squid.conf。 








DLinux 服 务 器 进程 通常 会 在 启动 的 时 候 生 成 一 个 PID 文 件 并 存 
入 /Var/run 目 录 中 ， 以 记录 该 后 台 进 程 的 PID。 比 如 syslogd 的 PID 文 件 
是 /var/run/syslogd.pid。 





DLinux 服 务 器 程序 通常 需要 考虑 系统 资源 和 限制 ， 以 预测 目 身 能 
承受 多 大 负 和 荷 ， 比 如 进程 可 用 文件 描述 符 总 数 和 内 存 总 量 等 。 


在 开始 系统 地 学 习 网 络 编程 之 前 ， 我 们 将 用 一 章 的 篇 幅 来 探讨 服务 
器 程序 的 一 些 主要 的 规范 。 


7.1.1 工 inux 系 统 目 志 





工 欲 善 其 事 ， 必 先 利 其 器 。 服 务 器 的 调试 和 维护 都 需要 一 个 专业 的 
志 系 统 。Linux 提 供 一 个 守护 进程 来 处 理 系 统 日 志 syslogd， 不 过 
现在 的 Linux 系 统 上 使 用 的 都 是 它 的 升级 版 











TSySslogd。 


ee 户 进程 输出 的 日 志 ， 又 能 接收 内 核 日 
志 。 用 户 进程 是 通过 调用 syslog 函 数 生成 系统 日 志 的 。 访 函数 将 日 志 输 
出 到 一 个 UNIX 本 地 域 socket 类 型 (AF_UNIX) 的 文件 /dev/log 中 ， 
rsyslogd 则 监听 该 文件 以 获取 用 户 进程 的 和 输出。 内核 日 志 在 老 的 系统 上 
通过 另外 一 个 守护 进程 rklogd 来 管理 的 ，rsyslogd 利 用 额外 的 模块 实现 


了 相同 的 功能 。 内 核 日 志 由 printk 等 函数 打印 至 内 核 的 环 状 缓存 (ring 
buffer) 中 。 环 状 绥 存 的 内 容 直 接 映射 到 /proc/kmsg 文 件 中 。rsyslogd 则 


通过 读 取 该 文件 获得 内 核 日 志 。 





rsyslogd 守 护 进程 在 接收 到 用 户 进程 或 内 核 输入 的 日 志 后 ， 会 把 它 
们 输出 至 某 些 特定 的 日 志文 件 。 默 认 情 况 下 ， 调 试 信息 会 保存 
至 /varlog/debug 文 件 ， 普 通信 息 保 存 至 /varlog/messages 文 件 ， 内 核 消 息 
则 保存 至 warlog/kern.log 文 件 。 不 过 ， 日 志 信 息 具 体 如 何 分 发 ， 可 以 在 
rsyslogd 的 配置 文件 中 设置 。rsyslogd 的 主 配 置 文件 是 /etc/rsyslog.conf， 
其 中 主要 可 以 设置 的 项 包括 : 内 核 日 志 输 入 路 径 ， 是 否 接收 UDP 日 志 及 
其 监听 端口 〈 默 认 是 514， 见 /etc/services 文 件 ) ， 是 否 接收 TCP 日 志 及 
其 监听 端口 ， 日 志文 件 的 权限 ， 包 含 哪些 子 配置 文件 〈 比 
如 /etc/rsyslog.d/*.conf) 。rsyslogd 的 子 配置 文件 则 指定 各 类 日 志 的 目标 
存储 文件 。 








图 7-1 总 结 了 Linux 的 系统 日 志 体 系 。 
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图 7-1 Linux 系 统 日 志 


7.1.2 syslog 国 数 


应 用 程序 使 用 syslog 函 数 与 rsyslogd 守 护 进程 通信 。syslog 函 数 的 定 
义 如 下 : 





#include=syslog.h> 
void syslog(int priority,const char*message,...); 











该 函数 采用 可 变 参数 〈 第 二 个 参数 message 和 第 三 个 参数 .…) 来 结 
构 化 输出 。Ppriority 参 数 是 所 谓 的 设施 值 与 日 志 级 别 的 按 位 或 。 设 施 值 的 
默认 值 是 LOG_USER， 我 们 下 面 的 讨论 也 只 限于 这 一 种 设施 值 。 日 志 级 
别 有 如 下 几 个 : 








#include=syslog.h> 

#define LOG EMERG 0/* 系 统 不 可 用 */ 

#define LOG ALERT 1/x* 报 警 ， 需 要 立即 采取 动作 */ 
#define LOG CRIT 2/* 非 常 严重 的 情况 */ 
#define LOG ERR 3/* 错 误 */ 

#define LOG WARNING 4/* 警 告 */ 

#define LOG NOTICE 5/* 通 知 */ 

#define LOG INFO 6/* 信 息 */ 

#define LOG DEBUG 7/* 调 试 */ 




























































































下 面 这 个 函数 可 以 改变 syslog 的 默认 输出 方式 ， 进 一 步 结 构 化 日 志 


内 容 : 





#include=syslog.h> 
void openlog(const char*ident,int logopt,int facility); 








ident 参 数 指定 的 字符 串 将 被 添加 到 日 志 消 息 的 日 期 和 时 间 之 后 ， 它 
通常 被 设置 为 程序 的 名 字 。1logopt 参 数 对 后 续 syslog 调 用 的 行为 进行 配 
置 ， 它 可 取 下 列 值 的 按 位 或 : 





























#define LOG PID 0x01/* 在 日 志 消 有 息 中 包含 程序 PID*/ 

#define LOG_CONS 0x02/* 如 果 消 息 不 能 记录 到 日 志文 件 ， 则 打印 至 终端 */ 
#define LOG ODELAY 0x04/* 延 迟 打 开 日 志 功 能 直到 第 一 次 调用 syslog*/ 
#define LOG NDELAY 0x08/* 不 延迟 打开 日 志 功 能 */ 
































facility 参 数 可 用 来 修改 syslog 函 数 中 的 默认 设施 值 。 


此 外 ， 日 志 的 过 滤 也 很 重要 。 程 序 在 开发 阶段 可 能 需要 输出 很 多 调 
试 信息 ， 而 发 布 之 后 我 们 又 需要 将 这 些 调试 信息 关闭 。 解 决 这 个 问题 的 
方法 并 不 是 在 程序 发 布 之 后 删除 调试 代码 《因为 日 后 可 能 还 需要 用 
到 ) ， 而 是 简单 地 设置 日 志 掩 码 ， 使 日 志 级 别 大 于 日 志 掩 码 的 日 志 信息 
被 系统 忽略 。 下 面 这 个 函数 用 于 设置 syslog 的 日 志 撼 码 : 














#include=syslog.h> 
int setlogmask (int maskpri); 





maskpri 参 数 指 定 日 志 掩 码 值 。 该 函数 始终 会 成 功 ， 它 返回 调用 进 
程 先前 的 日 志 掩 码 值 。 最 后 ， 不 要 志 了 使 用 如 下 函数 关闭 日 志 功 能 : 





#include=syslog.h> 
void closelog(); 





7.2 用户 信息 


7.2.1 UID、EUID、GID 和 EGID 


用 户 信息 对 于 服务 器 程序 的 安全 性 来 说 是 很 重要 的 ， 比 如 大 部 分 服 
务 器 就 必须 以 root 吴 份 启动 ， 但 不 能 以 root 喘 份 运行 。 下 面 这 一 组 函数 
可 以 获取 和 设置 当前 进程 的 真实 用 户 ID 〈《UID) 、 有 效用 户 
ID (EUID) 、 真 实 组 ID (GID) 和 有 效 组 ID (EGID): 








#include=<=sys/types.h> 
#include=<=unistd.n> 
uid t getuiqd();/* 获 取 真 实用 户 ID*/ 
上 geteuiqd();/* 获 取 有 效用 户 ID*/ 
gid t getgiq();/* 获 取 真 实 组 ID*/ 
七 getegig() ;/* 获 取 有 效 组 ID*/ 
int setuid(uid t uid);/* 设 置 真实 用 户 ID*/ 
int seteuiqd(uiqd t uid);/* 设 置 有 效用 户 ID*/ 
int setgid(giqd t gid);/* 设 置 真 实 组 ID*/ 
t setegid(giqd t giqd);/* 设 置 有 效 组 ID*/ 








































































































需要 指出 的 是 ， 一 个 进程 拥有 两 个 用 户 ID: UID 和 EUID。EUID 存 
在 的 目的 是 方便 资源 访问 : 它 使 得 运行 程序 的 用 户 拥 有 该 程序 的 有 效用 
户 的 权限 。 比 如 su 程序 ， 任 何 用 户 都 可 以 使 用 它 来 修改 自己 的 账户 信 
奶 ， 但 修改 账户 时 su 程序 不 得 不 访问 /etc/passwd 文 件 ， 而 访问 该 文件 是 
需要 root 权 限 的。 那么 以 普通 用 户 喘 份 启 动 的 su 程序 如 何 能 访 
问 /etc/passwd 文 件 呢 ? 穿 门 就 在 EUID。 用 1s 命 令 可 以 查看 到 ，su 程 序 的 











所 有 者 是 root， 并 且 它 被 设置 了 set-user-id 标 志 。 这 个 标志 表示 ， 任 何 普 
通用 户 运 行 su 程序 时 ， 其 有 效用 户 就 是 该 程序 的 所 有 者 root。 那 么 ， 根 
据 有 效用 户 的 含义 ， 任 何 运 行 su 程序 的 普通 用 户 都 能 够 访问 /etc/passwd 
文件 。 有 效用 户 为 root 的 进程 称 为 特权 进程 (privileged processes) 。 
EGID 的 含义 与 EUID 类 似 : 给 运行 目标 程序 的 组 用 户 提供 有 效 组 的 权 
限 。 





下 面 的 代码 清单 7-1 可 以 用 来 测试 进程 的 UID 和 EUID 的 区 别 。 


代码 清单 7-1 ”测试 进程 的 UID 和 EUID 的 区 别 





#include<=unistd.n> 

#include=stdio.h> 

int main () 

{ 

uid t uid=getuid(); 

uid t euid=geteuid(); 

printf ("userid is%d,effective userid is:%Sd\n",uid,euid); 
return 0; 


} 
































编译 该 文件 ， 将 生成 的 可 执行 文件 (名 为 test_uid) 的 所 有 者 设置 为 
root， 并 设置 该 文件 的 set-user-id 标 志 ， 然 后 运行 该 程序 以 查看 UID 和 
EUID。 具 体操 作 如 下 : 














$sudo chown root:root test uid# 修 改 目 标 文件 的 所 有 者 为 root 
$sudo chmod+s test uig# 设 置 目 标 文 件 的 set-user-id 标 志 

$./test uid# 运 行程 序 
userid is 1000,effective userid is:0 




















从 测试 程序 的 输出 来 看 ， 进 程 的 UID 是 启动 程序 的 用 户 的 ID， 而 
EUID 则 是 root 账 户 ( 文 件 所 有 者 〉 的 ID。 


7.2.2 切换 用 户 


下 面 的 代码 清单 7-2 展 示 了 如 何 将 以 root 里 份 局 动 的 进程 切换 为 以 一 
通用 户 身 份 运行 


代码 清单 7-2 切换 用 户 





2 bool Switch to user(uid t user id,gid t gp id) 


先 确 保 目 标 用 户 不 是 root*/ 
if((user id==0) && (gp id==0)) 
{ 


return false; 




















} 

/* 确 保 当 前 用 户 是 合法 用 户 : root 或 者 目标 用 户 */ 
gid t gid=getgid(); 

uid t uid=getuid(); 

if(((gid!=0)|| (uid!=0))&&((gid!=gp _id)|| (uid!=user id))) 
{ 

return false; 

} 

/* 如 果 不 是 root， 则 已 经 是 目标 用 户 */ 

if (uid!=0) 

{ 


Ne 七 YUe 





























/* 切 换 到 目标 用 户 */ 
if((setgid(gp id)<=0)||(setuid(user id)=0)) 











return false; 











return CEUyey 





7.3 ”进程 间 关 系 
7.3.1 ”进程 组 
Linux 下 每 个 进程 都 隶属 于 一 个 进程 组 ， 因 此 它们 除了 PID 信 息 外 ， 


还 有 进程 组 ID (PGID〉。 我 们 可 以 用 如 下 函数 来 获取 指定 进程 的 
PGID: 





#include=<=unistd.n> 
pid t getpgid(pid t pid); 





该 函数 成 功 时 返回 进程 pid 所 属 进 程 组 的 PGID， 失 败 则 返回 -1 并 设 


置 errno。 


每 个 进程 组 都 有 一 个 首领 进程 ， 其 PGID 和 PID 相 同 。 进 程 组 将 一 
存在 ， 直 到 其 中 所 有 进程 都 退出 ， 或 者 加 入 到 其 他 进程 组 


下 面 的 函数 用 于 设置 PGID: 





#include=<=unistd.n> 
int setpgidl(pid t pid,pid t pgid); 





函数 将 PID 为 pid 的 进程 的 PGID 设 置 为 pgid。 如 果 pid 和 pgid 相 同 ， 
则 由 pid 指 定 的 进程 将 被 设置 为 进程 组 首领 如果 pid 为 0， 则 表示 设置 当 


前 进程 的 PGID 为 pgid; 如 果 pgid 为 0， 则 使 用 pid 作 为 目标 PGID。setpgid 
函数 成 功 时 返回 0， 失 败 则 返回 -1 并 设置 ermo。 


一 个 进程 只 能 设置 自己 或 者 其 子 进 程 的 PGID。 并 且 ， 当 于 进程 调 
用 exec 系 列 函 数 后 ， 我 们 也 不 能 再 在 父 进 程 中 对 它 设 置 PGID。 


T7927 -Gi 


一 些 有 关联 的 进程 组 将 形成 一 个 会 话 (session〉。 下 面 的 函数 用 于 
创建 一 个 会 话 : 





#include<unistd.h> 
pid t setsid(void); 





函数 不 能 由 进程 组 的 首领 进程 调用 ， 人 否则 将 产生 一 个 错误 。 对 于 
非 组 首领 的 进程 ， 调 用 该 函数 不 仅 创 建新 会 话 ， 而 且 有 如 下 额外 效 末 : 


该 





口 调用 进程 成 为 会 话 的 首领 ， 此 时 该 进程 是 新 会 话 的 唯一 成 员 。 


口 新 建 一 个 进程 组 ， 其 PGID 就 是 调用 进程 的 PID， 调 用 进程 成 为 该 
组 的 首领 。 


口 调用 进程 将 甩 开 终端 《如 果 有 的 话 ) 。 


该 函数 成 功 时 返回 新 的 进程 组 的 PGID， 失 败 则 返回 -1 并 设置 


eIrrnOo 


Linux 进 程 并 未 提供 所 谓 会 话 ID (SID) 的 概念 ， 但 Linux 系 统 认为 
它 等 于 会 话 首领 所 在 的 进程 组 的 PGID， 并 提供 了 如 下 函数 来 读 取 SID: 





#include=<=unistd.n> 
pid t getsid(pid t pid); 





7.3.3 ”用 ps 命令 查看 进程 关系 


执行 ps 命令 可 查看 进程 、 进 程 组 和 会 话 之 间 的 天 系 : 





$sps-o pid,ppid,pgid,sid,comml|less 
PID PPID PGID SID COMMAND 

1943 1942 1943 1943 bash 

2298 1943 2298 1943 ps 

2299 1943 2298 1943 less 
































我 们 是 在 bash shell 下 执行 ps 和 less 命 令 的 ， 所 以 ps 和 less 命 令 的 父 进 
程 是 bash 命 令 ， 这 可 以 从 PPID 〈 父 进程 PID ) 一列 看 出 。 这 3 条 命令 创建 
了 1 个 会 话 〈SID 是 1943) 和 2 个 进程 组 (PGID 分 别 是 1943 和 2298) 。 
bash 命 令 的 PID、PGID 和 SID 都 相同 ， 很 明显 它 既 是 会 话 的 首领 ， 也 是 
组 1943 的 首领 。ps 命 令 则 是 组 2298 的 首领 ， 因 为 其 PID 也 是 2298。 图 7-2 
描述 了 此 三 者 的 关系 。 





组 2298 





有 本 本 m 本 | | | 


7.4 系统 资源 限制 


Linux 上 运行 的 程序 都 会 受到 资源 限制 的 影响 ， 比 如 物理 设备 限制 
(CPU 数量 、 内 存 数量 等 ) 、 系 统 策略 限制 《CPU 时 间 等 ) ， 以 及 有 具体 
实现 的 限制 “比如 文件 名 的 最 大 长 度 ) 。Linux 系 统 资源 限制 可 以 通过 
如 下 一 对 函数 来 读 取 和 设置 : 





#include=<=sys/resource.h> 
int getrlimit (Int resource,struct rlimit*rlim); 
int setrlimit(int resource,const struct rlimit*rlim); 












































nim 参数 是 rlimit 结 构 体 类 型 的 指针 ，rlimit 结 构 体 的 定义 如 下 : 





struct rlimit 


ol Wa i 0 VO 0 ol ly 1 ly ee 
rlim 七 rlim max; 
ks 




















rim _t 是 一 个 整数 类 型 ， 它 描述 资源 级 别 。rlim_cur 成 员 指 定 资源 的 
软 限制 ，Him_max 成 员 指 定 资源 的 硬 限制 。 软 限制 是 一 个 建议 性 的 、 最 
好 不 要 超越 的 限制 ， 如 果 超 越 的 话 ， 系 统 可 能 向 进程 发 送信 号 以 终止 其 
运行 。 例 如 ， 当 进程 CPU 时 间 超 过 其 软 限制 时 ， 系 统 将 向 进程 发 送 
SIGXCPU 信 号 ; 当 文 件 斥 寸 超过 其 软 限 制 时 ， 系 统 将 同 进 程 肥 送 
SIGXFSZ 信 号 《〈 见 第 10 草 ) 。 硬 限制 一 般 是 软 限制 的 上 限 。 普 通 程序 可 





以 减 小 硬 限制 ， 而 





只 有 以 root 冉 份 运行 的 程序 才能 增加 硬 限制 。 此 外 ， 


我 们 可 以 使 用 ulimit 命 令 修 改 当 前 shell 环 境 下 的 资源 限制 ( 软 限制 或 /和 
硬 限制 ) ， 这 种 修改 将 对 该 shell 启 动 的 所 有 后 续 程 序 有 效 。 我 们 也 可 以 
通过 修改 配置 文件 来 改变 系统 软 限 制 和 硬 限制 ， 而 且 这 种 修改 是 永久 


的 ， 详 情 见 第 16 章 。 





resource 参 数 指定 资源 限制 类 型 。 表 7-1 列 举 了 部 分 比较 重要 的 资源 


限制 类 型 。 


资源 限制 类 型 


RLIMIT_AS 


RLIMIT_ CORE 


RLIMIT_CPU 
RLIMIT DATA 


RLIMIT_FSIZE 


RLIMIT NOFILE 





RLIMIT NPROC 


RLIMIT_SIGPENDING 
RLIMIT_ STACK 





表 7-1 getrlimit 和 setrlimit 支持 的 部 分 资源 限制 类 型 


含 义 

进程 虚拟 内 存 总 量 限制 (单位 是 字 节 )。 超 过 该 限制 将 使 得 某 些 函 数 〈 比 如 mmap) 
产生 ENOMEM 错误 

进程 核心 转 储 文件 (core dump) 的 大 小 限制 (单位 是 字 节 )。 其 值 为 0 表示 不 产生 
核心 转 储 文件 

进程 CPU 时 间 限 制 (单位 是 秒 ) 

进程 数据 段 (初始 化 数据 data 段 、 未 初始 化 数据 bss 段 和 堆 ) 限制 (单位 是 字 节 ) 

文件 大 小 限制 《单位 是 字 节 )， 超 过 该 限制 将 使 得 某 些 函数 〈 比 如 write) 产生 
EFBIG 错误 

文件 描述 符 数量 限制 ， 超 过 该 限制 将 使 得 某 些 函 数 〈 比 如 pipe) 产生 EMFILE 错误 

用 户 能 创建 的 进程 数 限 制 ， 超 过 该 限制 将 使 得 某 些 函数 〈 比 如 fork) 产生 EAGAIN 
错误 

用 户 能 够 挂 起 的 信号 数量 限制 

进程 栈 内 存 限制 〈 单 位 是 字 节 )， 超 过 该 限制 将 引起 SIGSEGYV 信和 号 


setrlimit 和 getrlimit 成 功 时 返回 0， 失 败 则 返回 -1 并 设置 errno。 


7.5 ”改变 工作 目录 和 根 目录 





有 些 服务 器 程序 还 需要 改变 工作 目录 和 根 目录 ， 比 如 我 们 第 4 半 讨 
论 的 Web 服务 器 。 一 般 来 说 ，Web 服 务 器 的 逻辑 根 目 录 并 非 文 件 系统 的 
根 目 录 “/*， 而 是 站 点 的 根 目 录 (对 于 Linux 的 Web 服 务 来 说 ， 该 目录 一 


般 是 /Var/www/) 。 


获取 进程 当前 工作 目录 和 改变 进程 工作 目录 的 函数 分 别 是 : 





#include=unistd.h> 
char*getcwd (char*buf,size t size); 
int chdir(const char*path); 





buf 参 数 指向 的 内 存 用 于 存储 进程 当前 工作 目录 的 绝对 路 径 名 ， 其 
大 小 由 size 参 数 指定 。 如 果 当 前 工作 目录 的 绝对 路 径 的 长 度 〈 再 加 上 一 
个 空 结束 字符 “0”) 超过 了 size， 则 getcwd 将 返回 NULL， 并 设置 ermo 为 
ERANGE。 如 果 buf 为 NULL 并 且 size 非 0， 则 getcwd 可 能 在 内 部 使 用 
malloc 动 态 分 配 内 存 ， 并 将 进程 的 当前 工作 目录 存储 在 其 中 。 如 果 是 这 
种 情况 ， 则 我 们 必须 自己 来 释放 getcwd 在 内 部 创建 的 这 块 内 存 。getcwd 
函数 成 功 时 返回 一 个 指向 目标 存储 区 〈buf 指 向 的 缓存 区 或 是 getcwd 在 
内 部 动态 创建 的 缓存 区 ) 的 指针 ， 失 败 则 返回 NULL 并 设置 errno。 








chdir 函 数 的 path 参 数 指定 要 切换 到 的 目标 目录 。 它 成 功 时 返回 0， 


失败 时 返回 -1 并 设置 errno。 





改变 进程 根 目录 的 函数 是 chroot， 其 定义 如 下 : 


#include=<=unistd.h> 
int chroot (const char*path); 





path 参 数 指定 要 切换 到 的 目标 根 目录 。 它 成 功 时 返回 09， 失败 时 返 
回 -1 并 设置 errno。chroot 并 不 改变 进程 的 当前 工作 目录 ， 所 以 调用 chroot 
之 后 ， 我 们 仍然 需要 使 用 chdir(“/”) 来 将 工作 目录 切换 至 新 的 根 目录 。 改 
变 进程 的 根 目录 之 后 ， 程 序 可 能 无 法 访问 类 似 /dev 的 文件 (和 目录 )， 
因为 这 些 文件 (和 目录 〉 并 非 处 于 新 的 根 目录 之 下 。 不 过 好 在 调用 
chroot 之 后 ， 进 程 原先 打开 的 文件 描述 符 依 然 生 效 ， 所 以 我 们 可 以 利用 
这 些 早 先 打开 的 文件 描述 符 来 访问 调用 chroot 之 后 不 能 直接 访问 的 文件 
4 和 目录 ) ， 尤 其 是 一 些 日 志文 件 。 此 外 ， 只 有 特权 进程 才能 改变 根 目 
录 。 

















7.6 ”服务 器 程序 后 台 化 


最 后 ， 我 们 讨论 如 何在 代码 中 让 一 个 进程 以 守护 进程 的 方式 运行 。 
守护 进程 的 编写 遵循 一 定 的 步骤 阅 ， 下 面 我 们 通过 一 个 具体 实现 来 探 
讨 ， 如 代码 清单 7-3 所 示 。 





代码 清单 7-3 ”将 服务 器 程序 以 守护 进程 的 方式 运行 





bool daemonize() 


{ 

/* 创 建 子 进程 ， 关 闭 父 进程 ， 这 样 可 以 使 程序 在 后 台 运 行 */ 
pid t pid=fork(); 

if (pid=0) 

{ 

return false; 

} 

else if (pid>0) 

{ 

exit (0) ， 

















} 

/x 设 置 文件 权限 掩 码 。 当 进程 创建 新 文件 〈 使 用 open (const char*pathname, Int 
flags,mode t moqe) 系 统 调 用 ) 时 ， 文 件 的 权限 将 是 mode &0777*/ 

umask (0) ， 

/* 创 建新 的 会 话 ， 设 置 本 进程 为 进程 组 的 首领 */ 

pid t sid=setsid(); 

if (sid=0) 

{ 


3 false; 






































pe 目录 */ 
if((chdir("/"))=0) 
{ 


J false; 

















关闭 标准 输入 设备 、 标 准 输出 设备 和 标准 错误 输出 设备 */ 
close (STDIN FILENO); 
close (STDOUT F LENO); 




































































close (STDERR FILENO); 
/* 关 闭 其 他 已 经 打开 的 文件 描述 符 ， 代 码 省 略 */ 
/* 将 标准 输入 、 标准 输出 和 标准 错 吴 输出 都 定向 到 /dev/null 文 件 */ 
open("/dev/null",O RDONLY); 
open("/dev/null",O RDWR); 
open("/dev/null",O RDWR); 
return true; 


} 















































实际 上 ，Linux 提 供 了 完成 同样 功能 的 库 函 数 : 





#include=unistd.h> 
int daemon (int nochdir,int noclose); 








其 中 ，nochdir 参 数 用 于 指定 是 否 改变 工作 目录 ， 如 采 给 它 传 递 0， 
则 工作 目录 将 被 设置 为 "”(〈 根 目录 ) ， 人 否则 继续 使 用 当前 工作 目录 。 
noclose 参 数 为 0 时 ， 标 准 输入 、 标 准 输 出 和 标准 错误 输出 都 被 重 定向 
到 /devnull 文 件 ， 人 否则 依然 使 用 原来 的 设备 。 该 函数 成 功 时 返回 0， 失 败 
则 返回 -1 并 设置 errno。 


第 8 半 ”局 性 能 服务 右 程 序 框架 





这 一 草 是 全 书 的 核心 ， 也 是 后 续 章 节 的 总 览 。 在 这 一 章 中 ， 我 们 按 
照 服 务 器 程序 的 一 般 原 理 ， 将 服务 器 解构 为 如 下 三 个 主要 模块 : 


DVO 处 理 单 元 。 本 章 将 介绍 W/O 处 理 单元 的 四 种 WO 模型 和 两 种 高 效 
事件 处 理 模 式 。 

口 逻辑 单元 。 本 章 将 介绍 逻辑 单元 的 两 种 高 效 并 发 模式 ， 以 及 高 效 
的 逻辑 处 理 方式 一 一 有 限 状态 机 。 

口 存储 单元 。 本 书 不 讨论 存储 单元 ， 因 为 它 只 是 服务 器 程序 的 可 选 
模块 ， 而 且 其 内 容 与 网 络 编程 本 身 无 关 。 





最 后 ， 本 章 还 介绍 了 提高 服务 器 性 能 的 其 他 建议 。 
8.1 服务 器 模型 
8.1.1 C/S 模 型 
TCP/IP 协 议 在 设计 和 实现 上 并 没有 客户 端 和 服务 器 的 概念 ， 在 通信 


过 程 中 所 有 机 器 都 是 对 等 的 。 但 由 于 资源 (视频 、 新 闻 、 软 件 等 ) 痢 被 
数据 提供 者 所 垄断 ， 所 以 几乎 所 有 的 网 络 应 用 程序 都 很 自然 地 采用 了 图 


8-1 所 示 的 CS《〈 客 户 端 /服务 器 ) 模型 : 所 有 客户 并 部 通 过 访问 服务 器 来 
获取 所 需 的 资源 。 


客户 端 客户 站 





图 8-1 C/S 模 型 


采用 C/S 模 型 的 TCP 服 务 器 和 TCP 客 户 端的 工作 流程 如 图 8-2 所 示 。 








C/S 模 型 的 逻辑 很 简单 。 服 务 嚣 局 动 后 ， 首 先 创 建 一 个 (或 多 个 ) 
监听 socket， 并 调用 bind 函 数 将 其 绑 定 到 服务 器 感 兴趣 的 端口 上 ， 然 后 
调用 listen 函 数 等 待 客户 连接 。 服 务 器 稳定 运行 之 后 ， 客 户 端 就 可 以 调用 


connect 函 数 癌 服务 器 发 起 连接 了 。 由 于 客户 连接 请 求 是 随机 到 达 的 噶 步 
事件 ， 服 务 器 需要 使 用 茶 种 IO 模型 来 监听 这 一 事件 。IO 横 型 有 多 种 ， 
图 8-2 中 ， 服 务 器 使 用 的 是 IO 复 用 技术 之 一 的 select 系 统 调用 。 当 监听 到 
连接 请 求 后 ， 服 务 器 就 调用 accept 国 数 接受 它 ， 并 分 配 一 个 逻辑 单元 为 
新 的 连接 服务 。 逻 辑 单元 可 以 是 新 创建 的 子 进程 、 子 线程 或 者 其 他 。 图 
8-2 中 ， 服 务 器 给 客户 端 分 配 的 逻辑 单元 是 由 fork 系 统 调用 创建 的 子 进 
旦 。 逻 辑 单元 读 取 客 户 请 求 ， 处 理 该 请 求 ， 然 后 将 处 理 结果 返回 给 客户 
端 。 客 户 问 接 收 到 服务 器 反馈 的 结果 之 后 ， 可 以 继续 回 服 务 器 发 送 请 
求 ， 也 可 以 立即 主动 关闭 连接 。 如 采 客 户 端 主动 天 闭 连接 ， 则 服务 器 执 
行 被 动 关闭 连接 。 至 此 ， 双 方 的 通信 结束 。 需 要 注意 的 是 ， 服 务 器 在 处 
理 一 个 客户 请 求 的 同时 还 会 继续 监听 其 他 客户 请 求 ， 人 否则 就 变 成 了 效率 
低下 的 串 行 服务 器 了 《必须 先 处理 完 前 一 个 客户 的 请 求 ， 才 能 继续 处 理 
下 一 个 客户 请 求 ) 。 图 8-2 中 ， 服 务 器 同时 监听 多 个 客户 请 求 是 通过 
select 系 统 调用 实现 的 。 
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图 8-2 TCP 服 务 器 和 TCP 客 户 端的 工作 流程 


C/S 模 型 非 第 适合 资源 相对 集中 的 场合 ， 并 且 它 的 实现 也 很 简单 ， 
但 其 缺点 也 很 明显 : 服务 器 是 通信 的 中 心 ， 当 访问 量 过 大 时 ， 可 能 所 有 
客户 都 将 得 到 很 慢 的 啊 应 。 下 面 讨 论 的 P2P 模 型 解决 了 这 个 问题 。 








8.1.2”P2P 模 型 


P2P (Peer to Peer， 点 对 点 ) 模型 比 C/S 模 型 更 符合 网 络 通信 的 实际 
情况 。 它 气 弃 了 以 服务 器 为 中 心 的 格局 ， 让 网 络 上 所 有 主机 重新 回归 对 
等 的 地 位 。P2P 模 型 如 网 8-3a 所 示 。 


P2P 模 型 使 得 每 台 机 器 在 消耗 服务 的 同时 也 给 别人 提供 服务 ， 这 样 
资源 能 够 充分 、 上 自由 地 共享 。 云 计算 机 群 可 以 看 作 P2P 模 型 的 一 个 上 典 
范 。 但 P2P 模 型 的 缺点 也 很 明显 : 当 用 户 之 间 传 输 的 请 求 过 多 时 ， 网 络 
的 负载 将 加 重 。 


图 8-3a 所 示 的 P2P 模 型 存在 一 个 显 闭 的 问题 ， 即 主机 之 间 很 难 互相 
发 现 。 所 以 实际 使 用 的 P2P 模 型 通常 市 有 一 个 专门 的 友 现 服务 占 ， 如 图 
8-3b 所 示 。 这 个 发 现 服务 器 通常 还 提供 碍 找 服务 〈 甚 至 还 可 以 提供 内 容 
服务 ) ， 使 每 个 客户 都 能 尽快 地 找到 上 自己 需要 的 资源 。 





Ne 
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图 8-3 两 种 P2P 模 型 


a) P2P 模 型 b) 带 有 发 现 服务 器 的 P2P 模 型 





从 编程 角度 来 讲 ，P2P 模 型 可 以 看 作 C/S 模 型 的 扩展 : 每 台 主 机 既是 
客户 端 ， 又 是 服务 器 。 因 此 ， 我 们 仍然 采用 C/S 模 型 来 讨论 网 络 编程 。 


8.2 ”服务 占 编 程 框 染 


虽然 服务 器 程序 种 类 繁多 ,但 其 基本 框架 都 一 样 ， 不 同 之 处 在 于 逻 
辑 处 理 。 为 了 让 读者 能 从 设计 的 角度 把 握 服 务 占 编程 ， 本 章 先 讨论 基本 
框架 ， 如 图 8-4 所 示 。 





网 络 存 储 单元 


IO 处 理 单元 (可 选 ) 


请 求 队列 





图 8-4 服务 器 基本 框架 


该 图 既 能 用 来 描述 一 全 服务 器 ， 也 能 用 来 描述 一 个 服务 器 机 群 。 两 
种 情况 下 各 个 部 件 的 含义 和 功能 如 表 8-1 所 示 。 


表 8-1 服务 器 基本 模块 的 功能 描述 





模 块 单个 服务 器 程序 服务 器 机 群 





1/O 处 理 单元 处 理 客户 连接 ， 读 写 网 络 数据 。 | ”作为 接 人 服务 器 ， 实 现 负载 均衡 
逻辑 单元 业务 进程 或 线程 | “逻辑 服务 器 








( 续 ) 


单个 服务 器 程序 服务 器 机 群 


网 络 存 储 单元 本 地 数据 库 、 文 件 或 缓存 数据 库 服务 器 





请 求 队列 各 单元 之 间 的 通信 方式 各 服务 器 之 间 的 永久 TCP 连接 





1/O 处 理 单元 是 服务 器 管理 客户 连接 的 模块 。 它 通常 要 完成 以 下 工 
作 : 等 竺 并 接受 新 的 客户 连接 ， 接 收 客户 数据 ， 将 服务 器 啊 应 数据 返回 
给 客户 闪 。 但 是 ， 数 据 的 收发 不 一 定 在 IO 处 理 单元 中 执行 ， 也 可 能 在 
逻辑 单元 中 执行 ， 具 体 在 何 处 执行 取决 于 事件 处 理 模式 〈 见 后 文 ) 。 对 
于 一 个 服务 絮 机 群 来 说 ，LO 处 理 单元 是 一 个 专门 的 接 入 服务 此 。 它 实 
现 负载 均衡 ， 从 所 有 逻辑 服务 器 中 选取 负 衍 最 小 的 一 台 来 为 新 客户 服 


务 。 


一 个 逻辑 单元 通常 是 一 个 进程 或 线程 。 它 分 析 并 处 理 客 户 数据 ， 然 
后 将 结果 传递 给 IO 处 理 单 元 或 者 直接 发 送 给 客户 端 ( 具 体 使 用 哪 种 方 
式 取决 于 事件 处 理 模 式 ) 。 对 服务 絮 机 群 而 言 ， 一 个 逻辑 单元 本 丑 就 古 
一 台 逻 辑 服 务 嚣 。 服 务 嚣 通 沼 拥有 多 个 远 辑 单元 ， 以 实现 对 多 个 客户 任 
务 的 并 行 处 理 。 





网 络 存储 单元 可 以 是 数据 库 、 缓 存 和 文件 ， 甚 至 是 一 台独 立 的 服务 


器 。 但 它 不 是 必须 的 ， 比 如 ssh、telnet 等 登录 服务 就 不 需要 这 个 单元 。 
请 求 队列 是 各 单元 之 间 的 通信 方式 的 抽象 。LIO 处 理 单元 接收 到 客 

户 请 求 时 ， 需 要 以 菏 种 方式 通知 一 个 逻辑 单元 来 处 理 该 请 求 。 同 样 ， 多 

个 多 辑 单 元 同时 访问 一 个 存储 单元 时 ， 也 需要 采用 茶 种 机 制 来 协调 处 理 


苋 态 条 件 。 请 求 队列 通常 被 实现 为 池 的 一 部 分 ， 我 们 将 在 后 面 讨论 池 的 
概念 。 对 于 服务 器 机 群 而 言 ， 请 求 队列 是 各 人 台 服 务 器 之 间 预 先 建立 的 、 
静态 的 、 永 久 的 TCP 连 接 。 这 种 TCP 连 接 能 提高 服务 器 之 间 交 换 数据 的 
效率 ， 因 为 它 避 免 了 动态 建立 TCP 连 接 导致 的 额外 的 系统 开销 。 


8.3 IO 模型 


第 5 章 讲 到 ，socket 在 创建 的 时 候 上 默认 是 阻 窟 的 。 我 们 可 以 给 socket 
系统 调用 的 第 2 个 参数 传递 SOCK_NONBLOCK 标 志 ， 或 者 通过 fcntl 系 统 
调用 的 F_SETFL 命 令 ， 将 其 设置 为 非 阻 塞 的 。 阻 塞 和 非 阻塞 的 概念 能 应 
用 于 所 有 文件 描述 符 ， 而 不 仅仅 是 socket。 我 们 称 阻塞 的 文件 描述 符 为 
阻塞 VO， 称 非 阻 奢 的 文件 描述 符 为 非 阻 奢 IO。 





针对 阻塞 IO 执行 的 系统 调用 可 能 因为 无 法 立即 完成 而 被 操作 系统 
挂 起 ， 直 到 等 待 的 事件 发 生 为止 。 比 如 ， 客 户 端 通过 connect 癌 服务 器 发 
起 连接 时 ，connect 将 首先 发 送 同步 报 文 段 给 服务 器 ， 然 后 等 待 服务 器 返 
回 确认 报 文 段 。 如 果 服 务 器 的 确认 报 文 段 没 有 立即 到 达 客 户 端 ， 则 
connect 调 用 将 被 挂 起 ， 直 到 客户 端 收 到 确认 报 文 段 并 唤醒 connect 调 
用 。socket 的 基础 API 中 ， 可 能 被 阻塞 的 系统 调用 包括 accept、send、 


recv 和 connect。 








针对 非 阻塞/O 执 行 的 系统 调用 则 总 是 立即 返回 ， 而 不 管事 件 是 
已 经 发 生 。 如 果 事 件 没有 立即 发 生 ， 这 些 系统 调用 就 返回 -1， 和 出 错 的 
情况 一 样 。 此 时 我 们 必须 根据 errno 来 区 分 这 两 种 情况 。 对 accept、send 
和 recv 而 言 ， 事 件 未 发 生 时 ermo 通 常 被 设置 成 EAGAIN 〈 意 为 “再 来 一 
次 ”) 或 者 EWOULDBLOCK 〈 意 为 “期 望 阻塞 ”) ; 对 connect 而 言 ， 


errno 则 被 设置 成 EINPROGRESS ( 意 为 “在 处 理 中 ”) 。 





很 显然 ， 我 们 只 有 在 事件 已 经 发 生 的 情况 下 操作 非 阻塞 JO 〈 读 、 
写 等 ) ， 才 能 提高 程序 的 效率 。 因 此 ， 非 阻塞 IO 通常 要 和 其 他 IO 通知 
机 制 一 起 使 用 ， 比 如 IO 复 用 和 SIGIO 信 和 号 


1/O 复 用 是 最 常 使 用 的 VO 通知 机 制 。 它 指 的 是 ， 应 用 程序 通过 1/O 复 
用 函数 向 内 核 注册 一 组 事件 ， 内 核 通 过 1/O 复 用 函数 把 其 中 就 绪 的 事件 

通知 给 应 用 程序 。Linux 上 常用 的 W/O 复 用 函数 是 select、poll 和 
epoll_wait， 我 们 将 在 第 9 章 详 细 讨 论 它 们 。 需 要 指出 的 是 ，1/O 复 用 函数 
本 号 是 阻 罕 的 ， 它 们 能 提高 程序 效率 的 原因 在 于 它们 具有 同时 监听 多 个 
IO 事件 的 能 











SIGIO 信 号 也 可 以 用 来 报告 MO 事件 。6.8 节 的 最 后 一 段 提 到 ， 我 们 
可 以 为 一 个 目标 文件 描述 符 指 定 宿主 进程 ， 那 么 被 指定 的 宿主 进程 将 捕 
获 到 SIGIO 信 号 。 这 样 ， 当 目标 文件 描述 符 上 有 事件 发 生 时 ，SIGIO 信 
号 的 信号 处 理 函 数 将 被 触发 ， 我 们 也 就 可 以 在 该 信号 处 理 函 数 中 对 目标 
文件 描述 符 执行 非 阻塞 JO 操 作 了 。 关 于 信和 号 的 使 用 ， 我 们 将 在 第 10 章 


讨论 。 








从 理论 上 说 ， 阻 塞 O、LIO 复 用 和 信号 驱动 IO 都 是 同步 JO 模 型 。 
因为 在 这 三 种 IO 模型 中 ，IO 的 读 写 操作 ， 都 是 在 IO 事件 发 生 之 后 ， 由 
应 用 程序 来 完成 的 。 而 POSIX 规 范 所 定义 的 异步 IO 模 型 则 不 同 。 对 异 


步 IO 而 言 ， 用 户 可 以 直接 对 MO 执行 读 写 操作 ， 这 些 操作 告诉 内 核 用 户 
读 写 缓冲 区 的 位 置 ， 以 及 IO 操作 完成 之 后 内 核 通知 应 用 程序 的 方式 。 
异步 IO 的 读 写 操作 总 是 立即 返回 ， 而 不 论 IO 是 否 是 阻塞 的 ， 因 为 真正 
的 读 写 操作 已 经 由 内 核 接管 。 也 就 是 说 ， 同 步 VO 模 型 要 求 用 户 代 码 自 
行 执行 WO 操作 (将 数据 从 内 核 缓冲 区 读 入 用 户 缓冲 区 ， 或 将 数据 从 用 
户 缓冲 区 写 入 内 核 缓冲 区 ) ， 而 异步 WO 机 制 则 由 内 核 来 执行 WO 操作 
(数据 在 内 核 缓冲 区 和 用 户 缓冲 区 之 间 的 移动 是 由 内 核 在 “后 台 ” 完 成 
的 ) 。 你 可 以 这 样 认为 ， 同 步 JO 辐 应 用 程序 通知 的 是 IO 就 绪 事件 ， 而 
异步 JO 向 应 用 程序 通知 的 是 IO 完成 事件 。Linux 环 境 下 ，aio.h 头 文件 中 
定义 的 函数 提供 了 对 异步 1/O 的 支持 。 不 过 这 部 分 内 容 不 是 本 书 的 重 
点 ， 所 以 只 做 简单 的 讨论 。 














作为 总 结 ， 我 们 将 上 面 讨论 的 几 种 IO 模型 的 差异 列 于 表 8-2 中 。 


表 8-2 1/O 模型 对 比 





I/O 模型 读 写 操作 和 阻塞 阶段 
阻塞 IO 程序 阻塞 于 读 写 函数 
LO 复 用 程序 阻塞 于 IO 复 用 系统 调用 ， 但 可 同时 监听 多 个 IO 事件 。 对 IO 本 身 的 读 写 操作 是 非 阻 寨 的 





SIGIO 信和 号 信号 触发 读 写 就 绪 事件 ， 用 户 程序 执行 读 写 操 作 。 程 序 没有 阻塞 阶段 
异步 IO 内 核 执行 读 写 操作 并 触发 读 写 完 成 事件 。 程 序 没有 阻塞 阶段 











8.4 两 种 高 效 的 事件 处 理 模 却 








服务 器 程序 通常 需要 处 理 三 类 事件 IO 事 件 、 信 号 及 定时 事件 。 
我 们 将 在 后 续 章节 依次 讨论 这 三 种 类 型 的 事件 ， 这 一 节 先 从 整体 上 介绍 
一 下 两 种 高 效 的 事件 处 理 模式 : Reactor 和 Proactor。 


随 着 网 络 设计 模 式 的 兴起 ，Reactor 和 Proactor 事 件 处 理 模式 应 运 而 
生 。 同 步 /O 模 型 通常 用 于 实现 Reactor 模 式 ， 异 步 WO 模 型 则 用 于 实现 
Proactor 模 式 。 不 过 后 面 我 们 将 看 到 ， 如 何 使 用 同步 /O 方 式 模拟 出 


Proactor 模 式 。 


8.4.1 ” ”Reactor 模式 








Reactor 是 这 样 一 种 模式 ， 它 要 求 主 线程 (WO 处 理 单元 ， 下 同 ) 只 
负责 监听 文件 描述 上 是 否 有 事件 发 生 ， 有 的 话 就 立即 将 该 事件 通知 工作 
线程 (逻辑 单元 ， 下 同 )。 除 此 之 外 ， 主 线程 不 做 任何 其 他 实质 性 的 工 
作 。 读 写 数据 ， 接 受 新 的 连接 ， 以 及 处 理 客户 请 求 均 在 工作 线程 中 完 
成 。 


使 用 同步 W/O 模型 (以 epoll_wait 为 例 ) 实现 的 Reactor 模 式 的 工作 尝 


程 是 : 


1) 主线 程 往 epoll 内 核 事 件 表 中 注册 socket 上 的 读 就 绪 事 件 。 


2) 主线 程 调用 epoll_wait 等 待 socket 上 有 数据 可 读 。 





3) 当 socket 上 有 数据 可 读 时 ，epoll_wait 通 知 主线 程 。 主 线程 则 将 
socket 可 读 事件 放 入 请 求 队列 。 


4) 睡眠 在 请 求 队列 上 的 某 个 工作 线程 被 唤醒 ， 它 从 socket 读 取 数 
据 ， 并 处 理 客户 请 求 ， 然 后 往 epoll 内 核 事 件 表 中 注册 该 socket 上 的 写 就 
绪 事 件 。 


5) 主线 程 调用 epoll_wait 等 竺 socket 可 写 。 





6) 当 socket 可 写 时 ，epoll_wait 通 知 主线 程 。 主 线程 将 socket 可 写 事 
件 放 入 请 求 队列 。 


7) 睡眠 在 请 求 队列 上 的 某 个 工作 线程 被 唤醒 ， 它 往 socket 上 写 入 服 
务 右 处 理 客户 请 求 的 结 


图 8-5 总 结 了 Reactor 模 式 的 工作 流程 。 


注册 写 就 绪 事 件 










注册 读 就 绪 事 件 














Read，Process 或 Write | 工作 线程 
循环 等 待 监听 / 连 ; 
ee epoll wait() 
E Read，Process 或 Write | 工作 线程 


注册 写 就 绪 事件 


图 8-5 Reactor 模式 


图 8-5 中 ， 工 作 线 程 从 请 求 队列 中 取出 事件 后 ， 将 根据 事件 的 类 型 
来 决定 如 何 处 理 它 : 对 于 可 读 事件 ， 执 行 读数 据 和 处 理 请 求 的 操作 ; 对 
于 可 写 事件 ， 执 行 写 数据 的 操作 。 因 此 ， 图 8-5 所 示 的 Reactor 模 式 中 ， 
没 必要 区 分 所 谓 的 “ 读 工 作 线 程 "? 和 “ 写 工作 线程 ”。 





8.4.2 ”Proactor 模 式 


与 Reactor 模 式 不 同 ，Proactor 模 式 将 所 有 LO 操作 都 交 给 主线 程 和 内 
核 来 处 理 ， 工 作 线 程 仅仅 负责 业务 逻辑 。 因 此 ，Proactor 模 式 更 符合 图 
8-4 所 描述 的 服务 堪 编 程 框架 。 


使 用 异步 VO 模型 (以 aio read 和 aio_write 为 例 ) 实现 的 Proactor 模 式 
的 工作 流程 是 : 


1) 主线 程 调 用 aio_read 函 数 癌 内 核 注 册 socket 上 的 读 完 成 事件 ， 并 
告诉 内 核 用 户 读 缓冲 区 的 位 置 ， 以 及 读 操 作 完 成 时 如 何 通 知 应 用 程序 
《这 里 以 信号 为 例 ， 详 情 请 参考 sigevent 的 man 手 册 ) 。 


2) 主线 程 继 续 处 理 其 他 逻辑 。 


3) 当 socket 上 的 数据 被 读 入 用 户 缓冲 区 后 ， 内 核 将 同 应 用 程序 发 送 
一 个 信号 ， 以 通知 应 用 程序 数据 已 经 可 用 。 


4) 应 用 程序 预先 定义 好 的 信号 处 理 函 数 选择 一 个 工作 线程 来 处 理 
客户 请 求 。 工 作 线 程 处 理 完 客 户 请 求 之 后 ， 调 用 aio_write 函 数 癌 内 核 注 
册 socket 上 的 写 完成 事件 ， 并 告诉 内 核 用 户 写 绥 冲 区 的 位 置 ， 以 及 写 操 
作 完 成 时 如 何 通 知 应 用 程序 仍然 以 信号 为 例 〉。 


5) 主线 程 继 续 处 理 其 他 逻辑 。 


6) 当 用 户 缓 冲 区 的 数据 被 写 入 socket 之 后 ， 内 核 将 向 应 用 程序 发 送 
一 个 信号 ， 以 通知 应 用 程序 数据 已 经 发 送 完毕 


7) 应 用 程序 预先 定义 好 的 信号 处 理 函 数 选择 一 个 工作 线程 来 做 善 
后 处 理 ， 比 如 决定 是 人 否 关闭 Socket。 


图 8-6 总 结 了 Proactor 模 式 的 工作 流程 。 


ee aio_write0， 注 册 写 完成 事件 


= 信和 号 Process 请 求 或 善后 处 理 | 工作 线程 
处 理 
函数 Process 请 求 或 善后 处 理 | 工作 线程 


aio_write()， 注 册 写 完成 事件 
















epoll wait() 一 





主线 程 


图 8-6 Proactot 模 式 


在 图 8-6 中 ， 连 接 socket 上 的 读 写 事件 是 通过 aio_read/aio_write 回 内 
核 注册 的 ， 因 此 内 核 将 通过 信号 来 同 应 用 程序 报告 连接 socket 上 的 读 写 
事件 。 所 以 ， 主 线程 中 的 epoll_wait 调 用 仅 能 用 来 检测 监听 socket 上 的 连 


接 请 求 事 件 ， 而 不 能 用 来 检测 连接 socket 上 的 读 写 事件 。 


8.4.3 ”模拟 Proactor 模 式 


参考 文献 [3] 提 到 了 使 用 同步 WO 方式 模拟 出 Proactor 模 式 的 一 种 方 
法 。 其 原理 是 : 主线 程 执 行 数据 读 写 操 作 ， 读 写 完 成 之 后 ， 主 线程 问 工 
作 线 程 通知 这 一 “完成 事件 ”"”。 那 么 从 工作 线程 的 角度 来 看 ， 它 们 就 直接 
获得 了 数据 读 写 的 结果 ， 接 下 来 要 做 的 只 是 对 读 写 的 结果 进行 逻辑 处 
由 








使 用 同步 WO 模型 (仍然 以 epoll_wait 为 例 ) 模拟 出 的 Proactor 模 式 的 
工作 流程 如 下 : 


1) 主线 程 往 epoll 内 核 事 件 表 中 注册 socket 上 的 读 束 绪 事 件 。 
2) 主线 程 调用 epoll_wait 等 待 socket 上 有 数据 可 读 。 


3) 当 socket 上 有 数据 可 读 时 ，epoll_wait 通 知 主线 程 。 主 线程 从 
socket 循 环 读 取 数据 ， 直 到 没有 更 多 数据 可 读 ， 然 后 将 读 取 到 的 数据 封 
闭 成 一 个 请 求 对 象 并 插入 请 求 队列 。 





4) 睡眠 在 请 求 队列 上 的 某 个 工作 线程 被 唤醒 ， 它 获得 请 求 对 象 并 
处 理 客户 请 求 ， 然 后 往 epoll 内 核 事 件 表 中 注册 socket 上 的 写 就 绪 事 件 。 


5) 主线 程 调 用 epoll_wait 等 待 socket 可 写 。 





6) 当 socket 可 写 时 ，epoll_wait 通 知 主线 程 。 主 线程 往 socket 上 写 入 
服务 器 处 理 客户 请 求 的 结果 。 





图 8-7 总 结 了 用 同步 JO 模 型 模拟 出 的 Proactor 模 式 的 工作 流程 。 
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写 事件 
| Process | 
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图 8-7 用 同步 I/O 模 拟 出 的 Proactot 模 式 


8.5 ”两 种 局 效 的 并 友 模 式 








并 发 编程 的 目的 是 让 程序 “同时 ?执行 多 个 任务 。 如 果 程 序 是 计算 密 
集 型 的 ， 并 发 编程 并 没有 优势 ， 反 而 由 于 任务 的 切换 使 效率 降低 。 但 如 
果 程 序 是 IO 密集 型 的 ， 比 如 经 常 读 写 文件 ， 访 问 数据 库 等 ， 则 情况 就 
不 同 了 。 由 于 IO 操作 的 速度 远 没 有 CPU 的 计算 速度 快 ， 所 以 让 程序 阻 
答 于 1/O 操 作 将 浪费 大 量 的 CPU 时 间 。 如 果 程 序 有 多 个 执行 线程 ， 则 当 
前 被 TO 操 作 所 阻 压 的 执行 线程 可 主动 放弃 CPU (或 由 操作 系统 来 调 
度 ) ， 并 将 执行 权 转 移 到 其 他 线程 。 这 样 一 来 ，CPU 就 可 以 用 来 做 更 加 

意义 的 事情 《除非 所 有 线程 都 同时 被 VO 操 作 所 阻塞 ) ， 而 不 是 等 街 
IO 操作 完成 ， 因 此 CPU 的 利用 率 显著 提升 。 











从 实现 上 来 说 ， 并 发 编程 主要 有 多 进程 和 多 线程 两 种 方式 ， 我 们 将 
在 后 续 章 节 详 细 讨 论 它们 ， 这 一 节 先 讨论 并 发 模式 。 对 应 于 图 8-4， 并 
发 模式 是 指 WO 处 理 单元 和 多 个 逻辑 单元 之 间 协 调 完成 任务 的 方法 。 服 
务 器 主要 有 两 种 并 发 编程 模式 : 半 同 步 / 半 和 异步 (half-sync/half-async) 
模式 和 领导 者 /追随 者 (Leader/Followers) 模式 。 我 们 将 依次 讨论 之 。 








85.1 淮 同 洲 )/ 半 异步 模式 








首先 ， 半 同步/ 半 异 步 模式 中 的 “同步 > 和 “异步 * 与 前 面 讨论 的 JO 模 


型 中 的 “同步 "和 “异步 ”是 完全 不 同 的 概念 。 在 VO 模型 中 ,， “同步 ?和 * 腊 
步 * 区 分 的 是 内 核 同 应 用 程序 通知 的 古 何 种 VO 事件 (是 就 绪 事 件 还 是 完 
成 事件 ) ， 以 及 该 由 谁 来 完成 WO 读 写 (是 应 用 程序 还 是 内 核 )。 在 并 
发 模式 中 , “同步 ” 指 的 是 程序 完全 按照 代码 友 列 的 顺序 执行 ;“ 异 步 ” 指 
的 是 程序 的 执行 需要 由 系统 事件 来 驱动 。 常 见 的 系统 事件 包括 中 断 、 信 
号 等 。 比 如 ， 图 8-8a 摘 述 了 同步 的 读 操 作 ， 而 图 8-8b 则 描述 了 有 寞 步 的 读 
操作 。 
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图 8-8 并 发 模式 中 的 同步 和 异步 


a) 同步 读 b) 异步 读 








按照 同步 方式 运行 的 线程 称 为 同步 线程 ， 按 照 异步 方式 运行 的 线程 
称 为 异步 线程 。 显 然 ， 异 步 线程 的 执行 效率 高 ， 实 时 性 强 ， 这 是 很 多 钥 
入 式 程序 采用 的 模型 。 但 编写 以 异步 方式 执行 的 程序 相对 复 森 ， 难 于 调 
试 和 扩展 ， 而 且 不 适合 于 大 量 的 并 发 。 而 同步 线程 则 相反 ， 它 虽然 效率 
相对 较 低 ， 实 时 性 较 差 ,但 逻辑 简单。 因此 ， 对 于 像 服务 右 这 种 既 要 求 
较 好 的 实时 性 ， 又 要 求 能 同时 处 理 多 个 客户 请 求 的 应 用 程序 ， 我 们 就 应 
该 同时 使 用 同步 线程 和 异步 线程 来 实现 ， 即 采用 半 同 步 / 半 和 异步 模式 来 


实现 。 








半 同 步 / 半 异 步 模 式 中 ， 同 步 线程 用 于 处 理 客户 逻辑 ， 相 当 于 图 8-4 
中 的 逻辑 单元 ， 异 步 线程 用 于 处 理 1/O 事 件 ， 相 当 于 图 8-4 中 的 1/O 处 理 单 
元 。 异 步 线程 监 听 到 客户 请 求 后 ， 就 将 其 封装 成 请 求 对 象 并 插入 请 求 队 
列 中 。 请 求 队列 将 通知 某 个 工作 在 同步 模式 的 工作 线程 来 读 取 并 处理 该 
请 求 对 象 。 具 体 选择 哪个 工作 线程 来 为 新 的 客户 请 求 服务 ， 则 取决 于 请 
求 队列 的 设计 。 比 如 最 简单 的 轮流 选取 工作 线程 的 Round Robin 算 法 ， 
也 可 以 通过 条 件 变量 〈 见 第 14 章 ) 或 信号 量 〈 见 第 14 章 ) 来 随机 地 选择 
一 个 工作 线程 。 图 8-9 总 结 了 半 同 步 / 半 异步 模式 的 工作 流程 。 
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图 8-9 半 同 步 / 半 异步 模式 的 工作 流程 


在 服务 器 程序 中 ， 如 果 结 合 考虑 两 种 事件 处 理 模式 和 几 种 IO 模 
型 ， 则 半 同 步 / 半 异步 模式 就 存在 多 种 变 体 。 其 中 有 一 种 变 体 称 为 半 同 
步 / 半 反应 堆 (half-synchalf-reactive) 模式 ， 如 图 8-10 所 示 。 











主线 程 






对 监听 /连接 socket 
调用 epoll waitO 


插入 连接 socket 
请 求 队列 


从 工作 队列 中 获取 从 工作 队列 中 获取 从 工作 队列 中 获取 
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图 8-10 半 同 步 / 半 反应 堆 模 式 


图 8-10 中 ， 异 步 线程 只 有 一 个 ， 由 主线 程 来 充当 。 它 负责 监听 所 有 
socket 上 的 事件 。 如 果 监 听 socket 上 有 可 读 事件 发 生 ， 即 有 新 的 连接 请 求 
到 来 ， 主 线程 就 接受 之 以 得 到 新 的 连接 socket， 然 后 往 epol 内核 事件 表 
中 注册 该 socket 上 的 读 写 事件 。 如 果 连 接 socket 上 有 读 写 事件 发 生 ， 即 有 
新 的 客户 请 求 到 来 或 有 数据 要 及 送 至 客户 疹 ， 主 线程 就 将 该 连接 socket 
插入 请 求 队 列 中 。 所 有 工作 线程 都 睡眠 在 请 求 队 列 上 ， 当 有 任务 到 来 
时 ， 它 们 将 通过 竞争 《比如 申请 互 斥 锁 ) 获得 任务 的 接管 权 。 这 种 竞争 
机 制 使 得 只 有 空闲 的 工作 线程 才 有 机 会 来 处 理 新 任务 ， 这 是 很 合理 的 。 





图 8-10 中 ， 主 线程 插入 请 求 队列 中 的 任务 是 就 绪 的 连接 socket。 这 
说 明 该 图 所 示 的 半 同 步 / 半 反应 堆 模 式 采 用 的 事件 处 理 模式 是 Reactor 模 
式 : 它 要 求 工 作 线 程 自己 从 socket 上 读 取 客 户 请 求 和 往 socket 写 入 服务 器 
应 答 。 这 就 是 该 模式 的 名 称 中 “half-reactive” 的 含义 。 实 际 上 ， 半 同步 / 





半 反 应 扒 模 式 也 可 以 使 用 模拟 的 Proactor 事 件 处 理 模式 ， 即 由 主线 程 来 
完成 数据 的 读 写 。 在 这 种 情况 下 ， 主 线程 一 般 会 将 应 用 程序 数据 、 任 务 
类 型 等 信息 封装 为 一 个 任务 对 象 ， 然 后 将 其 或 者 指 问 该 任务 对 象 的 一 
个 指针 ) 插入 请 求 队列 。 工 作 线 程 从 请 求 队列 中 取得 任务 对 象 之 后 ， 即 
可 直接 处 理 之 ， 而 无 须 执 行 读 写 操作 了。 我 们 将 在 第 15 半 给 出 一 个 用 半 
同步 / 半 反 应 堆 模 式 实现 的 简单 Web 服 务 器 的 代码 。 








半 同 步 / 半 反应 堆 模式 存在 如 下 缺点 : 


口 主线 程 和 工作 线程 共享 请 求 队列 。 主 线程 往 请 求 队列 中 添加 任 
务 ， 或 者 工作 线程 从 请 求 队 列 中 取出 任务 ， 都 需要 对 请 求 队列 加 锁 保 
护 ， 从 而 白白 耗费 CPU 时 间 。 


口 每 个 工作 线程 在 同一 时 间 只 能 处 理 一 个 客户 请 求 。 如 果 客 户 数量 
较 多 ， 而 工作 线程 较 少 ， 则 请 求 队列 中 将 堆积 很 多 任务 对 象 ， 客 户 端的 
响应 速度 将 越 来 越 慢 。 如 果 通 过 增加 工作 线程 来 解决 这 一 问题 ， 则 工作 
线程 的 切换 也 将 耗费 大 量 CPU 时 间 。 





图 8-11 描 述 了 一 种 相对 局 效 的 半 同 步 / 半 和 异步 模式 ， 它 的 每 个 工作 线 
程 都 能 同时 处 理 多 个 客户 连接 。 


主线 程 


对 监听 socket 调 用 
epoll wait() 
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对 连接 socket 调 用 
epoll wait() 
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图 8-11 高 效 的 半 同 步 / 半 异 步 模式 





图 8-11 中 ， 主 线程 只 管理 监听 socket， 连 接 socket 由 工作 线程 来 管 
理 。 当 有 新 的 连接 到 来 时 ， 主 线程 就 接受 之 并 将 新 返回 的 连接 socket 派 
发 给 某 个 工作 线程 ， 此 后 该 新 socket 上 的 任何 MO 操作 都 由 被 选中 的 工作 
线程 来 处 理 ， 直 到 客户 关闭 连接 。 主 线程 向 工作 线程 派发 socket 的 最 简 
单 的 方式 ， 是 往 它 和 工作 线程 之 间 的 管道 里 写 数据 。 工 作 线程 检测 到 管 
道上 有 数据 可 读 时 ， 就 分 析 是 否 是 一 个 新 的 客户 连接 请 求 到 来 。 如 采 
是 ， 则 把 该 新 socket 上 的 读 写 事件 注册 到 自己 的 epoll 内 核 事 件 表 中 。 





可 见 ， 图 8-11 中 ， 每 个 线程 (主线 程 和 工作 线程 》 都 维持 自己 的 事 
件 循 环 ， 它 们 各 目 独 立地 监听 不 同 的 事件 。 因 此 ， 在 这 种 高 效 的 半 同 
步 / 半 异 步 模 式 中 ， 每 个 线程 都 工作 在 异步 模式 ， 所 以 它 并 非 严格 意义 
上 的 半 同 步 / 半 寞 步 模式 。 我 们 将 在 第 15 章 给 出 一 个 用 这 种 高 效 的 半 同 
步 / 半 异 步 模式 实现 的 简单 CGI 服务 器 的 代码 。 








8.5.2 ”领导 者 /追随 者 模式 








领导 者 / 退 随 者 模式 是 多 个 工作 线程 轮流 获得 事件 源 集合 ， 轮 流 监 
听 、 分 发 并 处 理事 件 的 一 种 模式 。 在 任意 时 间 点 ， 程 序 都 仅 有 一 个 领导 
者 线程 ， 它 负责 监听 IO 事件 。 而 其 他 线程 则 都 是 退 随 者 ， 它 们 休眠 在 
线程 池 中 等 等 成 为 新 的 领导 者 。 当 前 的 领导 者 如 果 检 测 到 WO 事件 ， 首 
先 要 从 线程 池 中 推选 出 新 的 领导 者 线程 ， 然 后 处 理 WO 事 件 。 此 时 ， 新 
的 领导 者 等 待 新 的 VO 事件 ， 而 原来 的 领导 者 则 人 处理/O 事 件 ， 二 者 实现 
了 并 友 。 





领导 者 /追随 者 模式 包含 如 下 几 个 组 件 : 句柄 集 (HandleSet) 、 线 
程 集 (ThreadSet) 、 事 件 处 理 器 (EventHandler) 和 具体 的 事件 处 理 器 


(CConcreteEventHandler) 。 它 们 的 关系 如 图 8-12 所 示 睹 。 


HandleSet 


Handle = 
+ wait for event(): void 


[== = A 
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+ unregister handle(): void 






EventHandler 


+ get_ handle(): Handle 
+ handle event():void 


人 













<<uses>> 
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ThreadSet 


ConcreteEventHandler 


+ handle event():void 





+ join(): void 
+ promote new_ leader(): void 








图 8-12 领导 者 /追随 者 模式 的 组 件 


1. 句 柄 集 


句柄 〈Handle) 用 于 表示 IO 资源 ， 在 Linux 下 通 向 就 是 一 个 文件 描 


述 符 。 句 柄 集 管理 众多 句柄 ， 它 使 用 wait_for_event 方 法 来 监听 这 些 句 柄 
上 的 MO 事件 ， 并 将 其 中 的 就 绪 事件 通知 给 领导 者 线程 。 领 导 者 则 调用 
绑 定 到 Handle 上 的 事件 处 理 器 来 处 理事 件 。 领 导 者 将 Handle 和 事件 处 理 
右 绑 定 是 通过 调用 句柄 集中 的 register_handle 方 法 实现 的 。 





2. 线 程 集 


这 个 组 件 是 所 有 工作 线程 《包括 领导 者 线程 和 奶 随 者 线程 ) 的 管理 
者 。 它 负责 各 线程 之 间 的 同步 ， 以 及 新 领导 者 线程 的 推选 。 线 程 集中 的 
线程 在 任 一 时 间 必 处 于 如 下 三 种 状态 之 一 : 


DLeader: 线程 当前 处 于 领导 者 身份 ， 负 责 等 竺 句柄 集 上 的 IO 事 
人 


口 Processing: 线程 正在 处 理事 件 。 领 导 者 检测 到 IO 事件 之 后 ， 可 
以 转移 到 Processing 状 态 来 处 理 该 事件 ， 并 调用 promote_new_leader 方 法 
推选 新 的 领导 者 ;也 可 以 指定 其 他 追随 者 来 处 理事 件 (Event 
Handoff) ， 此 时 领导 者 的 地 位 不 变 。 当 处 于 Processing 状 态 的 线程 处 理 
完事 件 之 后 ， 如 有 条 当前 线程 集中 没有 领导 者 ， 则 它 将 成 为 新 的 领导 者 ， 
否则 它 就 直接 转变 为 妃 随 者 。 








DFollower: 线程 当前 处 于 追随 者 身份 ， 通 过 调用 线程 集 的 join 方法 
等 待 成 为 新 的 领导 者 ， 也 可 能 被 当前 的 领导 者 指定 来 处 理 新 的 任务 。 


图 8-13 显 示 了 这 三 种 状态 之 间 的 转换 关系 。 


Processing 


事件 处 理 
完成 ， 且 
当前 没有 
领导 者 线程 


图 8-13 








处 理事 件 
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领导 者 线程 












被 推选 为 新 的 领导 者 





领导 者 /追随 者 模式 的 状态 转移 


再 要 注意 的 是 ， 领 导 者 线程 推选 新 的 领导 者 和 追随 者 等 竺 成 为 新 领 
导 者 这 两 个 操作 都 将 修改 线程 集 ， 因 此 线程 集 提 供 一 个 成 员 


Synchronizer 来 同步 这 两 个 操作 ， 以 避免 竞 态 条 件 。 








3. 事 件 处 理 器 和 具体 的 事件 处 理 需 





事件 处 理 器 通常 包含 一 个 或 多 个 回调 函数 handle_event。 这 些 回调 
函数 用 于 处 理事 件 对 应 的 业务 逻辑 。 事 件 处 理 器 在 使 用 前 需要 被 绑 定 到 
东 个 句柄 上 ， 当 该 句柄 上 有 事件 发 生 时 ， 领 导 者 就 执行 与 之 绑 定 的 事件 
处 理 器 中 的 回调 函数 。 具 体 的 事件 处 理 器 是 事件 处 理 器 的 派生 类 。 它 们 











必须 重新 实现 基 类 的 handle_event 方 法 ， 以 处 理 特定 的 任务 。 





根据 上 面 的 讨论 ， 我 们 将 领导 者 /追随 者 模式 的 工作 流程 总 结 于 网 8- 
14 中 。 
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图 8-14 领导 者 /追随 者 模式 


由 于 领导 者 线程 自己 监听 VO 事件 并 处 理 客 户 请 求 ， 因 而 领导 者 / 妃 
随 者 模式 不 需要 在 线程 之 间 传 递 任何 额外 的 数据 ， 也 无 须 像 半 同 步 / 半 
反应 堆 模 式 那 样 在 线程 之 间 同 步 对 请 求 队列 的 访问 。 但 领导 者 / 退 随 者 
的 一 个 明显 缺点 是 仅 文 持 一 个 事件 源 集 合 ， 因 此 也 无 法 像 图 8-11 所 示 的 
那样 ， 让 每 个 工作 线程 独立 地 省 理 多 个 客户 连接 。 








8.6 ”有 限 状 态 机 


前 面 两 节 探 讨 的 是 服务 器 的 VO 处 理 单元 、 请 求 队列 和 逻辑 单元 之 
间 协 调 完 成 任务 的 各 种 模式 ， 这 一 节 我 们 介绍 逻辑 单元 内 部 的 一 种 高 效 
编程 方法 : 有 限 状 态 机 (finite state machine) 。 

有 的 应 用 层 协 议 头 部 包含 数据 包 类 型 字段 ， 每 种 类 型 可 以 映射 为 逻 
辑 单 元 的 一 种 执行 状态 ， 服 务 器 可 以 根据 它 来 编写 相应 的 处 理 逻 辑 ， 如 
代码 清单 8-1 所 示 。 





代码 清单 8-1 状态 独立 的 有 限 状 态 机 











STATE MACHINE (Package pack) 
{ 
PackageType type= pack.GetType(); 
Switch ( type) 

{ 

case type A: 

process package A( pack); 

break; 

















case type B: 
process package B( pack); 
break; 

} 

} 








这 就 是 一 个 简单 的 有 限 状态 机 ， 只 不 过 该 状态 机 的 每 个 状态 都 是 相 
互 独立 的 ， 即 状态 之 间 没 有 相互 转移 。 状 态 之 间 的 转移 是 需要 状态 机 内 
部 驱动 的 ， 如 代码 清单 8-2 所 示 。 




















STATE MACHINE () 





代码 清单 8-2 ” 带 状态 转移 的 有 限 状 态 机 





{ 

state eur State=tybpeA? 
whilel(cur State!=type C) 
{ 
Package pack=getNewPackage (); 
Switch (cur State) 

{ 

case type A: 

process package state A( pack); 
cur State=type By 
break; 
Case: type:. B: 
process package state B( pack); 
cur State=stype CY 

break; 

} 

} 

} 









































该 状态 机 包含 三 种 状态 : type_A、type_B 和 type_C， 其 中 type_A 是 
状态 机 的 开始 状态 ，type_C 是 状态 机 的 结束 状态 。 状 态 机 的 当前 状态 记 
录 在 cur_State 变 量 中 。 在 一 趟 循环 过 程 中 ， 状 态 机 先 通过 
getNewPackage 方 法 获得 一 个 新 的 数据 包 ， 然 后 根据 cur_State 变 量 的 值 
判断 如 何 处 理 该 数据 包 。 数 据 包 处 理 完 之 后 ， 状 态 机 通过 给 cur_State 变 
量 传递 目标 状态 值 来 实现 状态 转移 。 那 么 当 状 态 机 进入 下 一 趟 循环 时 ， 
它 将 执行 新 的 状态 对 应 的 逻辑 。 





下 面 我 们 考虑 有 限 状态 机 应 用 的 一 个 实例 : HTTP 请求 的 读 取 和 分 


析 。 很 多 网 络 协议 ， 包 括 TCP 协 议和 了 协议 ， 都 在 其 头 部 中 提供 头 部 长 
度 字 段 。 程 序 根据 该 字段 的 值 就 可 以 知道 是 否 接 收 到 一 个 完整 的 协议 头 
部 。 但 HITP 协 议 并 未 提供 这 样 的 头 部 长 度 字 段 ， 并 且 其 头 部 长 度 变 化 
也 很 大 ， 可 以 只 有 十 几 字 节 ， 也 可 以 有 上 百 字 节 。 根 据 协 议 规定 ， 我 们 
判断 HTTP 头 部 结束 的 依据 是 过 到 一 个 空 行 ， 该 空 行 仪 包含 一 对 回 车 换 
行 符 〈《<CR><LFE>) 。 如 果 一 次 读 操作 没有 读 入 HTTP 请 求 的 整个 头 
部 ， 即 没有 遇 到 空 行 ， 那 么 我 们 必须 等 待 客户 继续 写 数据 并 再 次 读 入 。 
因此 ， 我 们 每 完成 一 次 读 操作 ， 就 要 分 析 新 读 入 的 数据 中 是 否 有 空 行 。 
不 过 在 寻找 空 行 的 过 程 中 ， 我 们 可 以 同时 完成 对 整个 HTTP 请求 头 部 的 
分 析 《〈 记 住 ， 空 行 前 面 还 有 请 求 行 和 头 部 域 ) ， 以 提高 解析 HITP 请 求 
的 效率 。 代 码 清单 8-3 使 用 主 、 从 两 个 有 限 状 态 机 实现 了 最 简单 的 HITP 
请 求 的 读 取 和 分 析 。 为 了 使 表述 简洁 ， 我 们 约定 ， 直 接 称 HITP 请 求 的 
一 行 〈 包 括 请 求 行 和 头 部 字段 ) 为 行 。 














代码 清单 8-3 HTTP 请 求 的 读 取 和 分 析 





#includqe< sys/socket.h> 

#include<netinet/in.h> 

#include=<=arpa/inet.h> 

#include=<assert.n> 

#include=stdio.h> 

#include=stdlib.n> 

#include=<=unistd.n> 

#include=<=errno.h> 

#include=string.h> 

#include<=<fcntl.h> 

#define BUFFER SIZE 4096/* 读 缓冲 区 大 小 */ 

/* 主 状态 机 的 两 种 可 能 状态 ， 分 别 表示 : 当前 正在 分 析 请 求 行 ， 当 前 正在 分 析 头 部 字段 */ 
enum CHECK STATE{CHECK STATE REQUESTLINE=0,CHECK STATE HEADER}; 












































































































































/* 从 状态 机 的 三 种 可 能 状态 ， 即 行 的 读 取 状 态 ， 分 别 表示 : 读 取 到 一 个 完整 的 行 
和 行 数据 尚且 不 完整 */ 
enum LINE STATUS{LINE OK=0,LINE BAD,LINE OPEN}; 


/* 服 务 器 处 理 HTTP 请 求 的 结果 : NO REQU 


















































































































































、 行 出 错 


EST 表 示 请 求 不 完整 ， 需 要 继续 读 取 客户 数据 ; 
GET_REQUEST 表 示 获 得 了 一 个 完整 的 客户 请 求 ，BAD REQUEST 表 示 客 户 请 求 有 语法 错误 ; 





FORBIDDEN _ REQUEST 表示 客户 对 资源 没有 足够 的 访问 权限 ; INTERNAL _ERROR 表 示 服 务 器 内 















































部 错误 ; CLOSED CONNECTION 表 示 客 户 端 已 经 关闭 连接 了 */ 
enum HTTP CODE{NO REQUEST,GET REQUEST,BAD REQUEST, 
FORBIDDEN REQUEST, INTERNAL ERROR,CLOSED CONNECTION}; 

























































































/* 为 了 简化 问题 我 们 没有 给 客户 端 发 送 一 个 完整 的 HTTP 应 答 报 文 ， 而 只 是 根据 服务 器 的 





处 理 结果 发 送 如 下 成 功 或 失败 信息 */ 








static const char*szret[]={"I get a correct result\n","Something 





wrong\n™"}; 

/* 从 状态 机 ， 用 于 解析 出 一 行内 容 */ 
LINE STATUS parse line(char*buffer,int&checked index,int& 
read index) 


{ 


char temp; 












































/*checkeqd_ index 指 向 bpuffer〔 应 用 程序 的 读 缓冲 区 〉 中 当前 正在 分 析 的 字 节 ， 
reaqd index 指 向 buffer 中 客户 数据 的 尾部 的 下 一 字 节 。pbuffer 中 第 0~~checked index 字 
节 都 已 分 析 完 毕 ， 第 checked ingdex~ (read index-1) 字 节 由 下 面 的 循环 挨个 分 析 */ 
























































for(;checked index<~read index;++checked index) 
{ 
/* 获 得 当前 要 分 析 的 字 节 */ 

temp=buffer[checked index]; 

/x* 如 果 当 前 的 字 节 是 *\r“， 即 回 车 符 ， 则 说 明 可 能 读 取 到 一 个 完整 的 行 */ 

if (temp==" \r') 

{ 

/* 如 果 *\r” 字 符 碰巧 是 目前 puffer 中 的 最 后 一 个 已 经 被 读 入 的 客户 数据 ， 那 么 










































































这 次 分 析 
步 分 析 */ 




















没有 读 取 到 一 个 完整 的 行 ， 返 回 LINE_OPEN 以 表示 还 需要 继续 读 取 客 户 数 据 才 能 进 
if((checked index+1)==read index) 

{ 

return LINE OPEN; 

} 

/* 如 果 下 一 个 字符 是 NA\n”， 则 说 明 我 们 成 功 读 取 到 一 个 完整 的 行 */ 
















































































else if(buffer[checked index+1]=="'\n') 
{ 

buffer[checked index++]="'\0'; 
buffer[checked index++]="'\0'; 

return LINE OK; 





} 
/* 人 否则 的 话 ， 说 明 客 户 发 送 的 HTTP 请 求 存在 语法 问题 */ 


return LINE BAD; 

















} 
/x* 如 果 当 前 的 字 节 是 \\n“， 即 换行 符 ， 则 也 说 明 可 能 读 取 到 一 个 完整 的 行 */ 


se if (temp=="'\n') 











e 
{ 
i 





Ff ( (checked index>1) &&buffer[checked index-1]=="'\r') 
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步 4 





buffer[checked index-1]="'\0'; 
buffer[checked index++]="'\0'; 
return LINE _ OK; 

















Li 




















return LINE BAD; 











/* 如 果 所 有 内 容 都 分 析 完 毕 也 没 遇 到 、\r“ 字 符 ， 则 返回 
取 客 户 数 据 才能 进一步 分 析 */ 


return LINE OPEN; 
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} 

/* 分 析 请 求 行 */ 
HTTP CODE parse requestline (char*temp,CHECK STATECcheckstate) 
{ 

char*url=strpbrk (temp,"\t"); 
/* 如 果 请 求 行 中 没有 空白 字符 或 \\t” 字 符 ， 则 HTTP 请 求 必 有 问题 */ 
if(!url) 
{ 

return BAD REQUEST; 
} 
*uUrl++=" \O0"; 
char*method=temp; 













































































if (strcasecmp (method, "GET")==0)/* 仪 支持 GET 方 法 */ 
{ 

printf("The request method is GET\n"); 

} 

else 


{ 

return BAD REQUEST; 
} 
url+=strspn (url,"\t"); 
char*version=strpbrk (url,"\t"); 
if(!lversion) 

{ 

return BAD REQUEST; 

} 

*version++="'\0'，» 

version+=strspn (version,"\t"); 

/* 仅 支持 HTTP/1.1*/ 
if(strcasecmp (version, "HTTP/1.1") !=0) 
{ 

return BAD REQUEST; 

} 

/* 检 查 URL 是 否 合法 */ 
if(strncasecmp (url, "nttp://",7)==0) 

{ 


授 下 汪汪 三 7 







































































FE OPEN， 表示 还 需要 继续 i 





url=strchr (url,'/'); 
} 
if(!url||lurl[0]!='/") 
{ 

return BAD REQUEST; 

} 
printf("The request URL is:%s\n",url); 
/*HTTP 请 求 行 处 理 完毕 ， 状 态 转 移 到 头 部 字段 的 分 析 */ 
Checkstate=CHECK STATE HEADER; 

return NO REQUEST; 






















































































} 

/x* 分 析 头 部 字段 */ 

HTTP _ CODE parse headers (char*temp) 

{ 

/* 过 到 一 个 空 行 ， 说 明 我 们 得 到 了 一 个 正确 的 HTTP 请 求 */ 

if (temp[0]=="'\0') 

{ 

return GET REQUEST; 

} 

else if(strncasecmp (temp, "Host:",5)==0)/* 处 理 "vHOST” 头 部 字段 */ 
{ 

七 emP+=5 7 
tempt+=strspn (temp, "\t"); 

printf("the request host is:%$s\n",temp); 





















































} 
else/* 其 他 头 部 字段 都 不 处 理 */ 
{ 


printf("I can not handle this header\n"); 


} 
return NO REQUEST; 



































} 

/* 分 析 HTTP 请 求 的 入 口 函 数 */ 

HTTP CODE parse content (char*buffer,int&checked index,CHECK STATI 
&checkstate,int&read index,int&start line) 

{ 
LINE STATUS linestatus=LINE OK;/* 记 录 当 前 行 的 读 取 状 态 */ 
HTTP CODE retcode=NO REQUEST;/* 记 录 HTTP 请 求 的 处 理 结果 */ 
/* 主 状态 机 ， 用 于 从 buffer 中 取出 所 有 完整 的 行 */ 
while( (linestatus=parse line (buffer,checked index,read index))==LI 
{ 
char*temp=buffertstart line;/*start line 是 行 在 bu 
start line=checkeqd index;/* 记 录 下 一 行 的 起 始 位 置 */ 
/*checkstate 记 录 主 状态 机 当前 的 状态 */ 
Switch (checkstate) 
{ 
case CHECK STATE REQUESTLINE:/* 第 一 个 状态 ,分 析 请 求 行 */ 
{ 


retcode=parse requestline (temp,checkstate); 



































































































































er 中 的 起 始 位 置 */ 

























































































if (retcode==BAD REQUEST) 
{ 
return BAD REQUEST; 

} 

break; 

} 

case CHECK STATE HEADER:/* 第 二 个 状态 ,分析 头 部 字段 */ 
{ 
retcode=parse headers (temp); 
if (retcode==BAD REQUEST) 

{ 
return BAD REQUEST; 

} 

else if (retcode==GET REQUEST) 
{ 

return GET REQUEST; 

} 

break; 

} 

default: 























































































































return INTERNAL ERROR; 












































f (linestatus==LINE OPEN) 














} 

} 

} 

/* 若 没有 读 取 到 一 个 完整 的 行 ， 则 表示 还 需要 继续 读 取 客 户 数据 才能 进一步 分 析 */ 
让 ( . 

{ 











return NO REQUEST; 

} 

else 

{ 

return BAD REQUEST; 

} 

} 

int main(int argc,char*argv[]) 

{ 

if (argc<==2) 

{ 

printf("usage:%s ip address port number\n",basename (argv{[0])); 
六 人 

} 

const char*ip=argv[1]; 

int port=atoi (argv[21); 

struct sockaddr in address; 

bzero (&address,sizeof (address)); 
address.sin family=AF INET; 

inet pton (AF INET,ip,&address.sin addr); 






























































address.sin port=htons (port); 

int listenfd=socket (PF INET,SOCK STREAM,0); 

assert (listenfd>=0);} 

int ret=pbind(listenfd, (struct sockaddr*)& 
address,sizeof (addqress) ) ， 




































































assert (Yet1!=-1) ， 

ret=listen (listenfd,5); 

assert (ret!=-1);) 

struct sockaddr in client address; 





socklen t client addrlength=sizeof (client address); 
int fd=accept (listenfd, (struct sockaddr*) &client address,& 
client addrlength); 
































if (fd=0) 

{ 

printf ("errno is:%d\n",errno); 
} 

else 


{ 

char buffer[BUFFER SIZE];/* 读 缓冲 区 */ 
es ZE); 

int data read=0; 



























































int read ingdex=0;/* 当 前 已 经 读 取 了 多 少 字 节 的 客户 数据 */ 
int checkeqd indqex=0;/x* 当 前 已 经 分 析 完 了 多 少 字 节 的 客户 数据 */ 
int start 1ine=0;/x 行 在 buffer 中 的 起 始 位 置 x/ 

















/* 设 置 主 状态 机 的 初始 状态 */ 

GHECEK ye checkstate=sCHECK STATE REQUESTLINE; 
while (1) /* 循 环 读 取 客 户 数据 并 分 析 之 */ 

{ 

data read=recv (fd,buffertread index,BUFFER SIZE-read index,0); 
if (data read==-1) 

{ 

printf("reading failed\n"); 

break; 

} 

else if(data read==0) 

{ 

printf("remote client has closed the connection\n"); 

break; 

} 

read index+=data read; 

/* 分 析 目 前 已 经 获得 的 所 有 客户 数据 */ 

HITP CODE 
result=parse content (buffer,checked index,checkstate,read index,start 
if (result==NO REQUEST) /* 尚 未 得 到 一 个 完整 的 HTTP 请 求 */ 

{ 

continue; 

} 

else if(result==GET REQUEST)/* 得 到 一 个 完整 的 、 正 确 的 HTTP 请 求 */ 
















































































































































































Sendq(fdq,Szret[0]，SsStrlen(sSzret[0])，0) 
break; 











} 

else/* 其 他 情况 表示 发 生 错 误 */ 

{ 

send (fd,szret[1],strlen(szret[1]),0); 
break; 


} 











} 
close (fd);) 
} 
eo] 











ose (listenfdqd);} 
return 0; 








我 们 将 代码 清单 8-3 中 的 两 个 有 限 状 态 机 分 别称 为 主 状 态 机 和 从 状 
态 机 ， 这 体现 了 它们 之 间 的 关系 : 主 状态 机 在 内 部 调用 从 状态 机 。 下 面 
先 分 析 从 状态 机 ， 即 parse_line 函 数 ， 它 从 buffer 中 解析 出 一 个 行 。 图 8- 
15 摘 述 了 其 可 能 的 状态 及 状态 转移 过 程 。 


未 读 取 到 
完整 请 求 









数据 到 达 回 车 字符 
和 换行 字符 

读 取 到 回 车 单独 出 现在 

和 换行 字符 HTTP 请 求 中 









LINE OK LINE BAD 


图 8-15 从 状态 机 的 状态 转移 图 





这 个 状态 机 的 初始 状态 是 LINE_OK， 其 原始 驱动 力 来 自 于 buffer 中 
新 到 达 的 客户 数据 。 在 main 函 数 中 ， 我 们 循环 调用 recv 函 数 往 buffer 中 读 
入 客户 数据 。 每 次 成 功 读 取 数 据 后 ， 我 们 就 调用 parse_content 函 数 来 分 
析 新 读 入 的 数据 。parse_content 函 数 首 先 要 做 的 就 是 调用 parse_line 函 数 
来 获取 一 个 行 。 现 在 假设 服务 器 经 过 一 次 recv 调 用 之 后 ，buffer 的 内 容 以 
及 部 分 变量 的 值 如 图 8-16a 所 示 。 





parse_line 函 数 处 理 后 的 结果 如 图 8-16b 所 示 ， 它 挨个 检查 图 8-16a 所 
示 的 buffer 中 checked_index 到 (read_index-1) 之 间 的 字 节 ， 判 断 是 否 存 
在 行 结束 符 ， 并 更 新 checked_index 的 值 。 当 前 buffer 中 不 存在 行 结束 
符 ， 所 以 parse_line 返 回 LINE_OPEN。 接 下 来 ， 程 序 继续 调用 recv 以 读 
取 更 多 客户 数据 ， 这 次 读 操作 后 buffer 中 的 内 容 以 及 部 分 变量 的 值 如 图 
8-16c 所 未 。 然 后 parse_line 函 数 就 又 开始 处 理 这 部 分 新 到 来 的 数据 ， 如 
图 8-16d 所 示 。 这 次 它 读 取 到 了 一 个 完整 的 行 ， 即 “HOST:localhostr”。 
此 时 ，Pparse_line 函 数 就 可 以 将 这 行内 容 递交 给 parse_content 函 数 中 的 主 
状态 机 来 处 理 了 。 





read index 


而 国 线 本 本 日 间 请 


checked index a) 


read index 





checked index 


b) 





read index 
HIQIS| TI 1 | 区 | 殴 | 深 | 4 | 葬 | 恒 | 器 | 家 | 证 | | 这 | 并 | 定 | 鲁 
checked index 
了 read index 





Ew“ eels ls | 


checked index 
d) 


图 8-16 ”parse_line 吕 数 的 工作 过 
a) 调用 recv 后 ，buffet 里 的 初始 内 容 和 部 分 变量 的 值 b) patse_line 有 函数 
处 理 buffer 后 的 结果 c) 再 次 调用 recv 后 的 结果 d) patse_line 函 数 再 次 
处 理 buffer 后 的 结果 





主 状态 机 使 用 checkstate 变 量 来 记录 当前 的 状态 。 如 果 当 前 的 状态 是 
CHECK_STATE_REQUESTLINE， 则 表示 parse_line 函 数 解析 出 的 行 是 
请 求 行 ， 于 是 主 状态 机 调用 parse_requestline 来 分 析 请 求 行 ， 如 果 当 前 的 
状态 是 CHECK_STATE_HEADER， 则 表示 parse_line 函 数 解析 出 的 是 头 
部 字段 ， 于 是 主 状态 机 调用 parse_headers 来 分 析 头 部 字段 。checkstate 变 
量 的 初始 值 是 CHECK_STATE_REQUESTLINE，Pparse_requestline 函 数 


在 成 功 地 分 析 完 请 求 行 之 后 将 其 设置 为 CHECK_STATE_HEADER， 从 
而 实现 状态 转移 。 


8.7 ”提高 服务 器 性 能 的 其 他 建议 





性 能 对 服务 絮 来 说 是 至 关 重 要 的 ， 毕 竞 每 个 客户 都 期 望 其 请 求 能 很 
快 地 得 到 啊 应 。 影 响 服务 器 性 能 的 首要 因素 就 是 系统 的 硬件 资源 ， 比 如 
CPU 的 个 数 、 速 度 ， 内 存 的 大 小 等 。 不 过 由 于 硬件 技术 的 飞速 发 展 ， 现 
代 服 务 占 都 不 缺乏 人 硬件 资源 。 因 此 ， 我 们 需要 考虑 的 主要 问题 是 如 何 
从 “软环境 ”来 提升 服务 器 的 性 能 。 服 务 器 的 “软环境 "， 一 方面 是 指 系统 
的 软件 资源 ， 比 如 操作 系统 允许 用 户 打 开 的 最 大 文件 描述 符 数量 ， 为 一 
方面 指 的 就 是 服务 器 程序 本 身 ， 即 如 何 从 编程 的 角度 来 确保 服务 器 的 性 


是 
能 ， 这 是 本 节 要 讨论 的 问题 。 








前 面 我 们 介绍 了 几 种 高 效 的 事件 处 理 模式 和 并 发 模式 ， 以 及 高 效 的 
馆 辑 处 理 方 式 一 一 有 限 状态 机 ， 它 们 都 有 助 于 提高 服务 器 的 整体 性 能 。 
下 面 我 们 进一步 分 析 高 性 能 服务 器 需要 注意 的 其 他 几 个 方面 : 池 、 数 据 
复制 、 上 下 文 切 换 和 锁 。 


8.7.1 池 
既然 服务 器 的 硬件 资源 “充裕 ?>， 那 么 提高 服务 器 性 能 的 一 个 很 直接 


的 方法 就 是 以 空间 换 时 间 ， 即 “浪费 ”服务 器 的 人 硬件 资源 ， 以 换取 其 运行 
效率 。 这 了 就 是 地 《〈pool) 的 概念 。 池 有 是 一 组 资源 的 集合 ， 这 组 资源 在 服 





务 需 月 动 之 初 就 和 ”完全 创建 好 并 初始 化 ， 这 称 为 静态 资源 分 配 。 当 服务 
器 进入 正式 运行 阶段 ， 即 开始 处 理 客 户 请 求 的 时 候 ， 如 果 它 需要 相关 的 
资源 ， 束 可 以 直接 从 池 中 获取 ， 无 须 动态 分 配 。 很 显然 ， 直接 从 池 中 取 
得 所 需 资源 比 动态 分 配 资源 的 速度 要 快 得 多 ， 因 为 分 配 系统 资源 的 系统 
调用 都 是 很 耗 时 的 。 当 服务 器 处 理 完 一 个 客户 连接 后 ， 可 以 把 相关 的 资 
源 放 回 池 中 ， 无 须 执行 系统 调用 来 释放 资源 。 从 最 终 的 效果 来 看 ， 池 相 
当 于 服务 器 管理 系统 资源 的 应 用 层 设 施 ， 它 避免 了 服务 器 对 内 核 的 频繁 
访问 。 





不 过 ， 既 然 池 中 的 资源 是 预先 静态 分 配 的 ， 我 们 就 无 法 预期 应 该 分 
配 多 少 资源 。 这 个 问题 又 该 如 何 解决 呢 ? 最 简单 的 解决 方案 就 是 分 
配 “ 足 够 多 ”的 资源 ， 即 针对 每 个 可 能 的 客户 连接 都 分 配 必 要 的 资源 。 这 
通常 会 导致 资源 的 浪费 ， 因 为 任 一 时 刻 的 客户 数量 都 可 能 远 远 没有 达到 
服务 絮 能 文 持 的 最 大 客户 数量 。 好 在 这 种 资源 的 浪费 对 服务 絮 来 说 一 般 
不 会 构成 问题 。 还 有 一 种 解决 方案 是 预先 分 配 一 定 的 资源 ， 此 后 如 果 发 
现 资源 不 够 用 ， 就 再 动态 分 配 一 些 并 加 入 凶 中 。 








根据 不 同 的 资源 类 型 ， 池 可 分 为 多 种 ， 管 见 的 有 内 存 池 、 进 程 池 、 
线程 池 和 连接 池 。 它 们 的 含义 都 很 明确 。 


内 存 池 通 常用 于 socket 的 接收 缓存 和 发 送 缓存 。 对 于 某 些 长 度 有 限 
的 客户 请 求 ， 比 如 HTTP 请 求 ， 预 先 分 配 一 个 大 小 足够 《比如 5000 字 
节 ) 的 接收 缓存 区 是 很 合理 的 。 当 客户 请 求 的 长 度 超过 接收 缓冲 区 的 大 








小 时 ， 我 们 可 以 选择 丢弃 请 求 或 者 动态 扩大 接收 缓冲 区 。 


进程 池 和 线程 池 都 是 并 发 编程 常用 的 “ 佼 癸 *。 当 我 们 需要 一 个 工作 
进程 或 工作 线程 来 处 理 新 到 来 的 客户 请 求 时 ， 我 们 可 以 直接 从 进程 池 或 
线程 池 中 取得 一 个 执行 实体 ， 而 无 须 动 态 地 调用 fork 或 pthread_create 等 
函数 来 创建 进程 和 线程 。 


连接 池 通 钊 用 于 服务 器 或 服务 器 机 群 的 内 部 永久 连接 。 图 8-4 中 ， 
每 个 逻辑 单元 可 能 都 需要 频繁 地 访问 本 地 的 某 个 数据 库 。 简 单 的 做 法 
是 : 逻辑 单元 每 次 需要 访问 数据 库 的 时 候 ， 就 向 数据 库 程 序 发 起 连接 ， 
而 访问 完毕 后 释放 连接 。 很 显然 ， 这 种 做 法 的 效率 太 低 。 一 种 解决 方案 
是 使 用 连接 池 。 连 接 池 是 服务 器 预先 和 数据 库 程序 建立 的 一 组 连接 的 集 
合 。 当 某 个 逻辑 单元 需要 访问 数据 库 时 ， 它 可 以 直接 从 连接 池 中 取得 一 
个 连接 的 实体 并 使 用 之 。 待 完成 数据 库 的 访问 之 后 ， 逻 辑 单元 再 将 该 连 
接 返 还 给 连接 池 。 








8.7.2 ”数据 复制 


高 性 能 服务 器 应 该 避免 不 必要 的 数据 复制 ， 尤 其 是 当 数 据 复制 发 生 
在 用 户 代 码 和 内 核 之 间 的 时 候 。 如 果 内 核 可 以 直接 处 理 从 socket 或 者 文 
件 读 入 的 数据 ， 则 应 用 程序 束 没 必要 将 这 些 数据 从 内 核 缓冲 区 复制 到 应 
用 程序 缓冲 区 中 。 这 里 说 的 “直接 处 理 ” 指 的 是 应 用 程序 不 关心 这 些 数 据 





的 内 容 ， 不 需要 对 它们 做 任何 分 析 。 比 如 ftp 服 务 嚣 ， 当 客户 请 求 一 个 文 
件 时 ， 服 务 器 只 需要 检测 目标 文件 是 否 存在 ， 以 及 客户 是 否 有 读 取 它 的 
权限 ， 而 绝对 不 会 天 心 文件 的 具体 内 容 。 这 样 的 话 ，ftp 服 务 器 束 无 须 把 
目标 文件 的 内 容 完 整地 读 入 到 应 用 程序 缓冲 区 中 并 调用 send 函 数 来 友 
送 ， 而 是 可 以 使 用 “ 零 找 贝 "函数 sendfile 来 直接 将 其 发 送 给 客户 端 








此 外 ， 有 用户 代码 内 部 《不 访问 内 核 ) 的 数据 复制 也 是 应 该 避免 的 。 
举例 来 说 ， 当 两 个 工作 进程 之 间 要 传递 大 量 的 数据 时 ， 我 们 就 应 该 考虑 
使 用 共有 至 内 存 来 在 它们 之 间 直 接 共 至 这 些 数据 ， 而 不 是 使 用 管道 或 者 消 
恩 队 列 来 传递 。 又 比如 代码 清单 8-3 所 示 的 解析 HTTP 请 求 的 实例 中 ， 我 
们 用 指针 (start_line〉 来 指出 每 个 行 在 buffer 中 的 起 始 位 置 ， 以 便 随 后 对 
行内 容 进行 访问 ， 而 不 是 把 行 的 内 容 复制 到 另外 一 个 缓冲 区 中 来 使 用 ， 
因为 这 样 既 浪 费 空间 ， 叉 效率 低下 。 











8.7.3 ”上下文 切换 和 锁 





并 发 程序 必须 考虑 上 下 文 切换 〈context switch) 的 问题 ， 即 进程 切 
换 或 线程 切换 导致 的 的 系统 开销 。 即 使 是 7O 密 集 型 的 服务 器 ， 也 不 应 
该 使 用 过 多 的 工作 线程 〈 或 工作 进程 ， 下 同 ) ， 人 否则 线程 间 的 切换 将 占 
用 大 量 的 CPU 时 间 ， 服 务 器 真正 用 于 处 理 业 务 逻 辑 的 CPU 时 间 的 比重 就 
显得 不 足 了 。 因 此 ， 为 每 个 客户 连接 都 创建 一 个 工作 线程 的 服务 器 模型 
是 不 可 取 的 。 图 8-11 所 描述 的 半 同 步 / 半 有 异步 模 式 是 一 种 比较 合理 的 解决 








方案 ， 它 允许 一 个 线程 同时 处 理 多 个 客户 连接 。 此 外 ， 多 线程 服务 器 的 
一 个 优点 是 不 同 的 线程 可 以 同时 运行 在 不 同 的 CPU 上 。 当 线程 的 数量 不 
大 于 CPU 的 数目 时 ， 上 下 文 的 切换 就 不 是 问题 了 。 








并 发 程序 需要 考虑 的 妨 外 一 个 问题 是 共享 资源 的 加 锁 保护 。 锁 通常 
被 认为 是 导致 服务 器 效率 低下 的 一 个 因素 ， 因 为 由 它 引 入 的 代码 不 仅 不 
处 理 任何 业务 逻辑 ， 而 且 需 要 访问 内 核资 源 。 因 此 ， 服 务 器 如 果 有 更 好 
的 解决 方案 ， 束 应 该 避免 使 用 锁 。 显 然 ， 图 8-11 所 描述 的 半 同 步 / 半 弄 
模式 就 比 图 8-10 所 摘 述 的 半 同 步 / 半 反应 堆 模 式 的 效率 蝇 。 如 果 服 务 器 必 
须 使 用 “ 锁 ?， 则 可 以 考虑 减 小 锁 的 粒度 ， 比 如 使 用 读 写 锁 。 当 所 有 工作 
线程 都 只 读 取 一 块 共享 内 存 的 内 容 时 ， 读 写 锁 并 不 会 增加 系统 的 额外 开 
销 。 只 有 当 其 中 茶 一 个 工作 线程 需要 写 这 块 内 存 时 ， 系 统 才 必须 去 锁 住 
这 块 区 域 。 

















第 9 章 ”1/O 复 用 








IO 复 用 使 得 程序 能 同时 监听 多 个 文件 描述 符 ， 这 对 提高 程序 的 性 
能 至 头 重要。 通常， 网 络 程序 在 下 列 情况 下 需要 使 用 IO 复 用 技术 : 


口 客 户 端 程序 要 同时 处 理 多 个 socket。 比 如 本 章 将 要 讨论 的 非 阻塞 
connect 技 术 。 


口 客户 并 程序 要 同时 处 理 用 户 输 入 和 网 络 连接 。 比 如 本 章 将 要 讨论 
的 聊天 室 程 序 。 


DTCP 服 务 器 要 同时 人 处理 监 昕 socket 和 连接 socket。 这 是 WO 复 用 使 
用 最 多 的 场合 。 后 续 章 节 将 展示 很 多 这 方面 的 例子 。 











口服 务 器 要 同时 处 理 TCP 请 求 和 UDP 请 求 。 比 如 本 章 将 要 讨论 的 回 
射 服务 器 。 


口服 务 器 要 同时 监听 多 个 端口 ， 或 者 处 理 多 种 服务 。 比 如 本 章 将 要 


讨论 的 xinetd 服 务 器 。 


需要 指出 的 是 ，IO 复 用 虽然 能 同时 监听 多 个 文件 描述 符 ， 但 它 本 
喘 是 阻塞 的 。 并 且 当 多 个 文件 描述 符 同 时 就 绪 时 ， 如 宁 不 采取 额外 的 措 
施 ， 程 序 束 只 能 按 顺 序 依次 处 理 其 中 的 每 一 个 文件 描述 符 ， 这 使 得 服务 
需 程 序 看 起 来 像 是 串 行 工作 的 。 如 果 要 实现 并 发 ， 只 能 使 用 多 进程 或 多 





线程 等 编程 手段 。 





Linux 下 实现 W/O 复 用 的 系统 调用 主要 有 select、poll 和 epoll， 本 章 将 
依次 讨论 之 ， 然 后 介绍 使 用 它们 的 几 个 实例 。 


9.1 。 select 系统 调用 


select 系 统 调 用 的 用 途 是 : 在 一 段 指定 时 间 内 ， 监 听 用 户 感 兴趣 的 
文件 描述 符 上 的 可 读 、 可 写 和 异常 等 事件 。 本 节 先 介绍 select 系 统 调用 
的 API， 然 后 讨论 select 判 断 文 件 描述 符 就 绪 的 条 件 ， 最 后 给 出 它 在 处 理 
市 外 数据 中 的 实际 应 用 。 





9.1.1 select API 


Select 系统 调用 的 原型 如 下 : 





#include<sys/select.h> 

int select (int 
nfds,fd set*readfds,fd set*writefds,fd set*exceptfds,struct 
timeval*timeout); 















































1) nfds 参 数 指定 个 监听 的 文件 描述 答 的 总 数 。 它 通 第 被 设置 为 
select 监 听 的 所 有 文件 描述 符 中 的 最 大 值 加 1， 因 为 文件 描述 符 是 从 0 开 
台 计 数 的 。 


2) readfds、writefds 和 exceptfds 参 数 分 别 指向 可 读 、 可 写 和 异 稼 等 
事件 对 应 的 文件 描述 符 集合 。 应 用 程序 调用 select 函 数 时 ， 通 过 这 3 个 参 
数 传 入 自己 感 兴趣 的 文件 描述 符 。select 调 用 返回 时 ， 内 核 将 修改 它们 
来 通知 应 用 程序 哪些 文件 描述 符 已 经 就 结 。 这 3 个 参数 是 fd_set 结 构 指针 
类 型 。fd_set 结 构 体 的 定义 如 下 : 





#include=<=typesizes.h> 
#define FD SETSIZE 1024 
#include<sys/select.h> 
#define FD SETSIZE FD SETSIZE 
typedef long int fd mask; 
#undef NFDBITS 

#define NFDBITS (8*(int)sizeof 
typedef struct 

























































































一 、 


fq mask)) 




















#ifdef USE XOPEN 

fq mask fds bits[ FD SETSIZE/ NFDBITS]; 
#define FDS BITS(set) ((set)-~>fds bits) 
#else 


fd mask fds bits[ FD SETSIZE/ NFDBITS]; 

























































































Hdefine FDS BITS(set) ((set)-> fds bits) 
#endif 
}fd set; 





























由 以 上 定义 可 见 ，fd_set 结 构 体 仅 包 含 一 个 整 型 数组 ， 该 数组 的 每 
个 元 素 的 每 一 位 〈bit) 标记 一 个 文件 描述 符 。fd_set 能 容纳 的 文件 描述 
符 数 量 由 FD_SETSIZE 指 定 ， 这 就 限制 了 select 能 同时 处 理 的 文件 描述 符 


的 总 量 。 


由 于 位 操作 过 于 烦琐 ， 我 们 应 该 使 用 下 面 的 一 系列 宏 来 访问 fd_set 
结构 体 中 的 位 : 





#includqe<sys/select.h> 

ED_ZERO (fdq_setxfdqset);/x* 清 除 fdqset 的 所 有 位 */ 

FD SET(int fd,fdq setx*fdqset);/x* 设 置 fdqset 的 位 fdqx/ 

FD CLR(int fd,fq setx*fdset);/x* 清 除 fdqset 的 位 fdqx/ 

int FD ISSET(int fd,fd setxfdset)7y/x* 测 试 fdaset 的 位 fd 是否 被 设置 */ 
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3) timeout 参 数 用 来 设置 select 函 数 的 超时 时 间 。 它 是 一 个 timeval 结 
构 类 型 的 指针 ， 采 用 指针 参数 是 因为 内 核 将 修改 它 以 告诉 应 用 程序 
select 等 待 了 多 久 。 不 过 我 们 不 能 完全 信任 select 调 用 返回 后 的 timeout 
值 ， 比 如 调用 失败 时 timeout 值 是 不 确定 的 。timeval 结 构 体 的 定义 如 下 : 








struct timeval 
{ 
long tv _sec;/* 秒 数 */ 
long tv_usec;/* 微 秒 数 */ 
}; 











由 以 上 定义 可 见 ，select 给 我 们 提供 了 一 个 微 秒 级 的 定时 方式 。 如 
果 给 timeout 变 量 的 tv_sec 成 员 和 tv_usec 成 员 都 传递 0， 则 select 将 立即 返 
回 。 如 果 给 timeonut 传 递 NULL， 则 select 将 一 直 阻 塞 ， 直 到 某 个 文件 描述 
符 就 绪 。 





Select 成功 时 返回 就 绪 〈 可 读 、 可 写 和 异常 ) 文件 描述 符 的 总 数 。 
如 果 在 超时 时 间 内 没有 任何 文件 描述 符 束 绪 ，select 将 返回 0。select 失 败 
时 返回 -1 并 设置 errno。 如 果 在 select 等 待 期 间 ， 程 序 接收 到 信号 ， 则 


select 立 即 返 回 -1， 并 设置 errno 为 EINTR 。 


9.1.2 ”文件 描述 符 就 绪 条 件 


哪些 情况 下 文件 描述 符 可 以 被 认为 是 可 读 、 可 写 或 者 出 现 异 遂 ， 对 
于 select 的 使 用 非常 关键 。 在 网 络 编程 中 ， 下 列 情况 下 socket 可 读 : 


口 socket 内 核 接收 缓存 区 中 的 字 节 数 大 于 或 等 于 其 低 水 位 标记 
SO_RCVLOWAT。 此 时 我 们 可 以 无 阻塞 地 读 该 socket， 并 且 读 操作 返回 
的 字 节 数 大 于 0。 





口 Socket 通 信 的 对 方 关 闭 连接 。 此 时 对 该 socket 的 读 操 作 将 返回 0。 
口 监听 socket 上 有 新 的 连接 请 求 。 


口 socket 上 有 未 处 理 的 错误 。 此 时 我 们 可 以 使 用 getsockopt 来 读 取 和 


清除 该 错误 。 


下 列 情况 下 socket 可 写 : 





Dsocket 内 核发 送 缓存 区 中 的 可 用 字 节 数 大 于 或 等 于 其 低 水 位 标记 
SO_SNDLOWAT。 此 时 我 们 可 以 无 阻塞 地 写 该 socket， 并 且 写 操作 返回 
的 字 节 数 大 于 0。 





口 socket 的 写 操作 被 关闭 。 对 写 操作 被 关闭 的 socket 执 行 写 操作 将 触 
发 一 个 SIGPIPE 信 和 号 。 


Dsocket 使 用 非 阻 寨 connect 连 接 成 功 或 者 失败 (超时 ) 之 后 。 


Dsocket 上 有 未 处 理 的 错误 。 此 时 我 们 可 以 使 用 getsockopt 来 读 取 和 


清除 该 错误 。 
网 络 程序 中 ，select 能 处 理 的 异常 情况 只 有 一 种 : socket 上 接收 到 带 
外 数据 。 下 面 我 们 详细 讨论 之 。 


9.1.3 “处理 带 外 数据 


上 一 小 节 提 到 ，socket 上 接收 到 普通 数据 和 市 外 数据 都 将 使 select 返 
回 ， 但 socket 处 于 不 同 的 就 绪 状 态 : 前 者 处 于 可 读 状 态 ， 后 者 处 于 异常 
状态 。 代 码 清单 9-1 描 述 了 select 是 如 何 同时 处 理 二 者 的 。 


代码 清单 9-1 同时 接收 普通 数据 和 带 外 数据 





#include=<=sys/types.h> 
#include=sys/socket.h> 
#include<netinet/in.h> 
#include=arpa/inet.h> 
#include=<assert.n> 
#include=stdio.h> 
#include=<=unistd.n> 
#include=<=errno.h> 
#include=string.hn> 
#include=<fcntl.h> 
#include=stdlib.n> 

int main(int argc,char*argv|[]) 
{ 

if (argc==2) 

{ 

printf("usage:%s ip address port number\n",basename (argv{[0])); 
return 1; 

} 

const char*ip=argv[1]; 

int port=atoi (argv[21); 

int ret=0; 

struct sockaddr in address; 
































bzero (&address,sizeof (address)); 

address.sin family=AF INET; 

inet pton (AF INET,ip,&address.sin addr); 

address.sin port=htons (port); 

int listenfd=socket (PF INET,SOCK STREAM,0); 

assert (listenfd>=0);}; 

ret=bind (listenfd, (struct sockaddr*) &address,sizeof (address)); 

























































































assert (ret!=-1);) 
ret=listen (listenfd,5); 
assert (ret!=-1);) 








struct sockaddr in client address; 
socklen t client addrlength=sizeof (client address); 
int connfd=accept (listenfd, (struct sockaddr*) &client address,& 
client addrlength); 
if (connfd=0) 
{ 
printf ("errno is:%Sd\n",errno); 
close(listenfd); 
} 
char buf{[1024]; 
fd set read fds; 
fd set exception fds; 
FD ZERO(&read fds); 
FD ZERO(&exception fqds); 
while (1) 



















































































memset (buf,'\0',sizeof (puf)); 

/* 每 次 调用 select 前 都 要 重新 在 read fds 和 exception fds 中 设置 文件 描述 符 
connfd， 因 为 事件 发 生 之 后 ， 文 件 描述 符 集合 将 被 内 核 修改 */ 

FD SET(connfd, &read fds); 

FD SET(connfd, &exception fds); 

ret=select (connfd+1, &read fds,NULL, &exception fds,NULL); 

























































































if (ret<=0) 

{ 

printf("selection failure\n"); 
break; 








} 

/* 对 于 可 读 事 件 ， 采 用 普通 的 recv 函 数 读 取 数 据 */ 

if (FD ISSET(connfd, &read fds)) 

{ 

ret=recv (connfd,buf,sizeof (buf)-1,0); 

if (ret<==0) 

{ 

break; 

} 

printf ("get®%d bytes of normal data:%s\n",ret,bu 
} 

/* 对 于 异常 事件 ， 采 用 带 MSG O00B 标 志 的 recv 函 数 读 取 带 外 数据 */ 
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else if(FD ISSET(connfd, &exception fdqs) ) 
{ 

ret=recv (connfd,buf,sizeof (buf)—-1,MSG OOB 
if (ret<=0) 

{ 

break; 

} 

printf ("get®%d bytes of oob data:%s\n",ret,bu 
































~。 
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close (connfdqd);} 
close (listenfd); 
return 0; 


} 


[EE | 











9.2 pol 系统 调用 





poll 系 统 调用 和 select 类 似 ， 也 是 在 指定 时 间 内 轮 询 一 定数 量 的 文件 
描述 符 ， 以 测试 其 中 是 否 有 就 绕 者 。poll 的 原型 如 下 : 








#include=poll.h> 
int poll(struct pollfd*fds,nfds t nfds,int timeout); 























1) fds 参 数 是 一 个 pollfd 结 构 类 型 的 数组 ， 它 指定 所 有 我 们 感 兴趣 的 
文件 插 述 符 上 发 生 的 可 读 、 可 写 和 异常 等 事件 。pollfd 结 构 体 的 定义 如 
下 : 








struct pollfd 

{ 

int fqd;/* 文 件 描述 符 */ 

short events;/* 注 册 的 事件 */ 

short revents;/* 实 际 发 生 的 事件 ， 由 内 核 填 充 */ 
js 



































其 中 ，fd 成 员 指定 文件 描述 符 ;，events 成 员 告诉 poll 监 听 fd 上 的 哪些 
事件 ， 它 是 一 系列 事件 的 按 位 或 ;， revents 成 员 则 由 内 核 修 改 ， 以 通知 应 
用 程序 fd 上 实际 发 生 了 哪些 事件 。poll 支 持 的 事件 类 型 如 表 9-1 所 示 。 


表 9-1 poll 事 件 类 型 

































事件 描述 是 否 可 作为 输出 
POLLIN 数据 (包括 普通 数据 和 优先 数据 可 读 是 是 
POLLRDNORM | 普通 数据 可 读 是 是 
POLLRDBAND 优先 级 带 数据 可 读 〈Linux 不 支持 ) 是 是 
POLLPRI 高 优先 级 数据 可 读 ， 比 如 TCP 带 外 数据 是 是 
POLLOUT 数据 〈 包 括 普通 数据 和 优先 数据 ) 可 写 是 是 

( 续 ) 





事 件 述 是 否 可 作为 输入 | 是 否 可 作为 输出 
POLLWRNORM 普通 数据 可 写 是 是 
加 


POLLWRBAND 优先 级 带 数 据 可 写 
TCP 连接 被 对 方 关闭 ， 或 者 对 方 关 闭 了 写 操作 。 它 














POLLRDHUP 是 是 
GNU 引入 
POLLERR 是 
十 二- A 首 / 写 端 yr 2 二 | 过半 沭 符 将 Ek 
a 挂 起 。 比 如 可 这 的 写 端 被 关闭 后 ， 读 端 描 述 符 上 将 收 i 是 
到 POLLHUP 事件 
POLLNVAL 文件 描述 符 没有 打开 是 


表 9-1 中 ，POLLRDNORM、POLLRDBAND、POLLWRNORM、 
POLLWRBAND 由 XOPEN 规 范 定义 。 它 们 实际 上 是 将 POLLIN 事 件 和 
POLLOUT 事 件 分 得 更 细致， 以 区 别 对 待 普通 数据 和 优先 数据 。 但 Linux 
并 不 完全 支持 它们 。 





通常 ， 应 用 程序 需要 根据 recv 调 用 的 返回 值 来 区 分 socket 上 接收 到 
的 是 有 效 数 据 还 是 对 方 关闭 连接 的 请 求 ， 并 做 相应 的 处 理 。 不 过 ， 自 
Linux 内 核 2.6.17 开 始 ，GNU 为 poll 系 统 调用 增加 了 一 个 POLLRDHUP 事 
件 ， 它 在 socket 上 接收 到 对 方 关 闭 连接 的 请 求 之 后 触发 。 这 为 我 们 区 分 
上 述 两 种 情况 提供 了 一 种 更 简单 的 方式 。 但 使 用 POLLRDHUP 事 件 时 ， 
我 们 需要 在 代码 最 开始 处 定义 _GNU_SOURCE。 





2) nfds 参 数 指定 被 监听 事件 集合 fds 的 大 小 。 其 类 型 nfds t 的 定义 如 
下 : 














typedef unsigned long int nfds t; 





3) timeout 参 数 指定 poll 的 超时 值 ， 单 位 是 坚 秒 。 当 timeout 为 -1 时 ， 
poll 调 用 将 永远 阻塞 ， 直 到 某 个 事件 发 生 ;， 当 timeout 为 0 时 ，poll 调 用 将 
立即 返回 。 





poll 系 统 调用 的 返回 值 的 含义 与 select 相 同 。 


9.3 epoll 系 列 系统 调用 


9.3.1 内 核 事 件 表 


epoll 是 Linux 特 有 的 VO 复 用 疯 数 。 它 在 实现 和 使 用 上 与 select、poll 
有 很 大 差异 。 首 先 ，epoll 使 用 一 组 函数 来 完成 任务 ， 而 不 是 单个 函数 。 
其 次 ，epol 把 用 户 关心 的 文件 描述 符 上 的 事件 放 在 内 核 里 的 一 个 事件 表 
中 ， 从 而 无 须 像 select 和 poll 那 样 每 次 调用 都 要 重复 传 入 文件 描述 符 集 或 
事件 集 。 但 epoll 需 要 使 用 一 个 额外 的 文件 描述 符 ， 来 唯一 标识 内 核 中 的 
这 个 事件 表 。 这 个 文件 描述 符 使 用 如 下 epoll_create 函 数 来 创建 : 











#include=sys/epoll.nh> 
int epoll create(int size) 


size 参 数 现在 并 不 起 作用 ， 只 是 给 内 核 一 个 提示 ， 告 诉 它 事件 表 需 
要 多 大 。 该 函数 返回 的 文件 描述 符 将 用 作 其 他 所 有 epoll 系 统 调用 的 第 一 
个 参数 ， 以 指定 要 访问 的 内 核 事件 表 。 


下 面 的 函数 用 来 操作 epoll 的 内 核 事 件 表 : 


#include=sys/epoll.nh> 
int epoll ctl(int epfd,int op,int fd,struct epoll event*event) 

















fd 参数 是 要 操作 的 文件 描述 符 ，op 参 数 则 指定 操作 类 型 。 操 作 关 型 


有 如 下 3 种 : 
DEPOLL_CTL_ADD， 往 事件 表 中 注册 fd 上 的 事件 。 
DEPOLL_CTL_MOD， 修 改 fd 上 的 注册 事件 。 
DEPOLL_CTL_DEL， 删 除 fd 上 的 注册 事件 。 


event 参 数 指 定 事件 ， 它 是 epoll_event 结 构 指 针 类 型 。epoll_event 的 


定义 如 下 : 





struct epoll event 
{ 
”uint32 t events;/*epoll 事 件 */ 
epoll data 七 data;/* 用 户 数 据 */ 
}; 

















其 中 events 成 员 描述 事件 类 型 。epoll 支 持 的 事件 类 型 和 poll 基 本 相 
同 。 表 示 epoll 事 件 类 型 的 宏 是 在 poll 对 应 的 宏 前 加 上 “E”， 比 如 epoll 的 数 
据 可 读 事 件 是 EPOLLIN。 但 epoll 有 两 个 额外 的 事件 类 型 一 一 EPOLLET 
和 EPOLLONESHOT。 它 们 对 于 epoll 的 高 效 运作 非常 关键 ， 我 们 将 在 后 
面 讨论 它们 。data 成 员 用 于 存储 用 户 数 据 ， 其 类 型 epoll_data_t 的 定义 如 
下 : 








typedef union epoll data 




















}epoll data 七 ; 





epoll_data_t 是 一 个 联合 体 ， 其 4 个 成 员 中 使 用 最 多 的 是 fd， 它 指定 
事件 所 从 属 的 目标 文件 描述 符 。ptr 成 员 可 用 来 指定 与 fd 相关 的 用 户 数 
据 。 但 由 于 epoll_data_t 是 一 个 联合 体 ， 我 们 不 能 同时 使 用 其 ptr 成 员 和 fd 
成 员 ， 因 此 ， 如 果 要 将 文件 描述 符 和 用 户 数据 关联 起 来 〈 正 如 8.5.2 小 节 
讨论 的 将 句柄 和 事件 处 理 器 绑 定 一 样 ) ， 以 实现 快速 的 数据 访问 ， 只 能 
使 用 其 他 手段 ， 比 如 放弃 使 用 epoll_data_t 的 fd 成 员 ， 而 在 ptr 指 向 的 用 户 
数据 中 包含 fd。 








epoll_ctl 成 功 时 返回 90， 失败 则 返回 -1 并 设置 errno。 
9.3.2 epoll_wait 函 数 


epoll 系 列 系统 调用 的 主要 接口 是 epoll_wait 函 数 。 它 在 一 段 超时 时 
间 内 等 待 一 组 文件 描述 符 上 的 事件 ， 其 原型 如 下 : 





#includqe< sys/epol1.n> 
int epoll wait (int epfd,struct epoll event*events,int 
maxevents,int timeout); 











该 函数 成 功 时 返回 束 绪 的 文件 搬 述 符 的 个 数 ， 失 败 时 返回 -1 并 设置 


elIIIO 。 


关于 该 图 数 的 参数 ， 我 们 从 后 往 前 讨论 。timeout 参 数 的 含义 与 poll 


接口 的 timeout 参 数 相 同 。maxevents 参 数 指 定 最 多 监听 多 少 个 事件 ， 它 
必须 大 于 0。 


epoll_wait 函 数 如 果 检 测 到 事件 ， 残 将 所 有 束 绪 的 事件 从 内 核 事件 
表 (由 epfd 参 数 指定 ) 中 复制 到 它 的 第 二 个 参数 events 指 癌 的 数组 中 。 
这 个 数组 只 用 于 输出 epoll_wait 检 测 到 的 束 绪 事件 ， 而 不 像 select 和 poll 的 
数组 参数 那样 既 用 于 传 入 用 户 注 册 的 事件 ， 又 用 于 输出 内 核 检 测 到 的 区 
绪 事 件 。 这 就 极 大 地 提高 了 应 用 程序 索引 就 绪 文 件 描述 符 的 效率 。 代 码 
清单 9-2 体 现 了 这 个 差别 。 








代码 清单 9-2 poll 和 epoll 在 使 用 上 的 差别 








/x* 如 何 索 引 po11 返 回 的 就 绪 文 件 描述 符 */ 

int ret=poll (fds, MAX EVE oo NUMBER， 

/* 必 须 遍 历 所 有 已 注册 文件 拭 述 符 并 找到 其 中 的 就 络 者 (当然 ， 可 以 利用 ret 来 稍 做 优 
化 ) */ 
for (Int i=0;i MAX EVENT NUMBER， 十 十 二 ) 































































































f (fds [i] .revents&POLLIN) /x* 判 断 第 1 个 文件 描述 符 是 否 就 绪 */ 














一 上 -一 








int sockfd=fds[i].fqd; 

/* 人 处 理 sockfqd*/ 

} 

} 

/* 如 何 索 引 epoll1 返 回 的 就 绪 文 件 描述 符 */ 
int ret=epoll wait (epollfd,events,MAX EVENT NUMBER,-1); 
/* 仅 遍历 就 绪 的 ret 个 文件 描述 符 */ 
for(int i=0;i<=<ret;i++) 

| 

int sockfd=events[i].data.fd; 
/*sockfd 肯 定 就 绕 ， 直 接 处 理 */ 

} 










































































9.3.3 LT 和 ET 模式 


epoll 对 文件 描述 符 的 操作 有 两 种 模式 : LT (Level Trigger， 电 平 触 
发 ) 模式 和 ET (Edge Trigger， 边 沿 触发 ) 模式 。LT 模 式 是 默认 的 工作 
模式 ， 这 种 模式 下 epoll 相 当 于 一 个 效率 较 高 的 poll。 当 往 epoll 内 核 事 件 
表 中 注册 一 个 文件 描述 符 上 的 EPOLLET 事 件 时 ，epoll 将 以 ET 模式 来 操 
作 该 文件 描述 符 。ET 模 式 是 epoll 的 高 效 工作 模式 。 





对 于 采用 LT 工作 模式 的 文件 描述 符 ， 当 epoll_wait 检 测 到 其 上 有 事 
件 发 生 并 将 此 事件 通知 应 用 程序 后 ， 应 用 程序 可 以 不 立即 处 理 该 事件 。 
这 样 ， 当 应 用 程序 下 一 次 调用 epoll_wait 时 ，epoll_wait 还 会 再 次 向 应 用 
程序 通告 此 事件 ， 直 到 该 事件 被 处 理 。 而 对 于 采用 ET 工作 模式 的 文件 
描述 符 ， 当 epoll_wait 检 测 到 其 上 有 事件 发 生 并 将 此 事件 通知 应 用 程序 
后 ， 应 用 程序 必须 立即 处 理 该 事件 ， 因 为 后 续 的 epoll_wait 调 用 将 不 再 
向 应 用 程序 通知 这 一 事件 。 可 见 ，ET 模 式 在 很 大 程度 上 降低 了 同一 个 
epoll 事 件 被 重复 触发 的 次 数 ， 因 此 效率 要 比 LT 模 式 高 。 代 码 清单 9-3 体 
现 了 LT 和 ET 在 工作 方式 上 的 差 噶 。 











代码 清单 9-3 LT 和 ET 模式 


#include=<=sys/types.h> 
#includqe< sys/socket.h> 
#include<netinet/in.h> 
#include=<=arpa/inet.h> 
#include=<assert.n> 
#include=stdio.h> 








#include=<=unistd.n> 
#include=<errno.h> 
#include=string.h> 
#include=<fcntl.h> 
#include=stdlib.n> 
#include=sys/epoll.n> 
#include<=<=pthread.h> 

#define MAX EVENT NUMBER 1024 
#define BUFFER SIZE 10 
/x* 将 文件 描述 符 设 置 成 非 阻塞 的 */ 


int setnonblocking (int fqd) 
















































































int old option=fcntl (fd,F GETFL); 
int new option=old option|O NONBLOCK; 
cntl (fd,F SETFL,new option); 

return old option; 












































/* 将 文件 描述 符 fg 上 的 EPOLLIN 注 册 到 epol1lfd 指 示 的 epoll1 内 核 事 件 表 中 ， 参 数 
enable_ et 指定 是 否 对 fd 启用 ET 模式 */ 
void addfd(int epollfd,int fd,bool enable et) 
{ 
epoll event event; 
event .data.fd=fqd; 
vent .events=EPOLLIN; 
if (enable et) 
{ 
vent .events|=EPOLLET; 
} 
epoll ctl (epollfd,EPOLL CTL ADD, fd, &event); 
setnonblocking (fqd); 




















































































































} 

/*LT 模 式 的 工作 流程 */ 
void lt(epoll event*events,int number,int epollfd,int listenfd) 
{ 
char buf [BUFFER S ZE]; 
for(int i=0;i<~number;i++) 
{ 
int sockfd=events[i].data.fd; 
if (sockfd==listenfd) 

{ 
struct sockaddr in client address; 

socklen t client addrlength=sizeof (client address); 

int connfd=accept (listenfd, (struct sockaddr*) &client address, 
&client addrlength); 
addfq (epollfd,connfd, false);/* 对 connfd 禁 用 ET 模式 */ 
} 

















































































































lse if(events[i] .events&EPOLLIN) 
{ 

















/* 只 要 socket 读 绥 存 中 还 有 未 读 出 的 数据 ， 这 段 代码 就 被 触发 * / 
printf ("event trigger once\n"); 
memset (buf, '\0',BUFFER SIZE); 
int ret=recv (sockfd,buf,BUFFER SIZE-1,0); 
if (ret<==0) 
{ 
close (sockfqd); 
continue; 
} 
printf ("get%d bytes of content:%s\n",ret,buf 
} 
else 
{ 
printf ("something else happened\n"); 
} 
} 
} 
/*ET 模 式 的 工作 流程 */ 
void et(epoll event*events,int number,int epollfd,int listenfd) 
{ 
char buf [BUFFER SIZE]; 
for(int i=0;i<~number;i++) 
{ 
int sockfd=events[i].data.fd; 
if (sockfd==listenfd) 
{ 
struct sockaddr in client address; 
socklen t client addrlength=sizeof (client address); 
int connfd=accept (listenfd, (struct sockaddr*) &client address,& 
client addrlength); 
addfq (epollfd, connfd,true) ;/* 对 connfqd 开 启 ET 模 式 */ 



















































































~ 一 
~。 


























































































































lse if(events[i] .events&EPOLLIN) 











{ 

/* 这 段 代 码 不 会 被 重复 触发 ， 所 以 我 们 循环 读 取 数据 ， 以 确保 把 socket 读 缓存 中 的 所 有 
数据 读 出 */ 

printf ("event trigger once\n"); 

while (1) 

{ 

memset (buf, '\0',BUFFER SIZE); 

int ret=recv (sockfd,buf,BUFFER SIZE-1,0); 

if (ret=0) 

{ 

/x* 对 于 非 阻 塞 To， 下 面 的 条 件 成 立 表 示 数 据 已 经 全 部 读 取 完 毕 。 此 后 ，epol11 就 能 再 次 触 
发 sockfd 上 的 EBPOLLIN 事 件 ， 以 驱动 下 一 次 读 操作 */ 
if((errno==EAGAIN) | | (errno==EWOULDBLOCK)) 
{ 


printf("read later\n"); 


















































































































































break; 

} 

close (sockfd);) 
break; 





else if (ret==0) 














close (sockfd);) 











printf ("get%d bytes ol 








F content:%s\n",ret,bu 


printf("something else happened\n"); 


int main(int argc,char*argv|[]) 


{ 
if (argc==2) 
{ 








Fn 





Printf("usage:gss ip address port number\n",basename (argv{[0])); 


return 1; 


} 





const char*ip=argv[1]; 


int port=atoi (argv [2] 
int ret=0; 





); 


struct sockaddr in address; 
bzero (&address,sizeof (address)); 
address.sin family=AF INET; 











inet pton (AF INET,ip,&address.sin addr); 


























address.sin port=htons (port); 








int listenfd=socket (PF INET,SOCK STR 











assert (listenfd>=0)， 




















ret=bind (listenfd, (struct sockaddr*) &address,sizeo 








assert (ret!=-1);) 








ret=listen (listenfd,5);} 











assert (ret!=-1);) 





epoll event events [MAX EVENT NUM 














BE 











int epollfd=epoll1 create(5); 





assert (epollfd!=-1); 
addfd (epollfd,1isten 

















fd,true); 








while(1) 
{ 





EAM, 0) ， 





f (address) )， 


























int ret=epoll wait (epollfd,events,MAX EVENT _ NUMBER, -II) ， 

















if (ret<=0) 

{ 

printf ("epoll failure\n"); 
break; 


} 
lt (events, ret,epollfd,1istenfqd) ;/* 使 用 LT 模式 */ 
//et (events,ret,epollfd,1istenfd);/* 使 用 ET 模式 */ 
} 
close (listenfd); 
return 0; 


} 















































读者 不 妨 运 行 一 下 这 上段 代码 ， 然 后 telnet 到 这 个 服务 器 程序 上 并 一 
次 传输 超过 10 字 节 (BUFFER_SIZE 的 大 小 ) 的 数据 ， 然 后 比较 LT 模式 
和 ET 模式 的 异同 。 你 会 发 现 ， 正 如 我 们 预期 的 ，ET 模 式 下 事件 被 触发 
的 次 数 要 比 LT 模 式 下 少 很 多 。 





nei 


注意 ”每 个 使 用 ET 模 式 的 文件 描述 符 都 应 该 是 非 阻塞 的 。 如 果 文 


件 描述 符 是 阻塞 的 ， 那 么 读 或 写 操 作 将 会 因为 没有 后 续 的 事件 而 一 直 处 
于 阻塞 状态 《〈 饥 渔 状态 ) 。 


9.3.4 EPOLLONESHOT 事 件 





即使 我 们 使 用 ET 模式 ， 一 个 socket 上 的 某 个 事件 还 是 可 能 被 触发 多 

这 在 并 发 程序 中 就 会 引起 一 个 问题 。 比 如 一 个 线程 (或 进程 ， 下 
同 ) 在 读 取 完 某 个 socket 上 的 数据 后 开始 处 理 这 些 数据 ， 而 在 数据 的 处 
理 过 程 中 该 socket 上 又 有 新 数据 可 读 (EPOLLIN 再 次 被 触发 ) ， 此 时 另 
外 一 个 线程 被 唤醒 来 读 取 这 些 新 的 数据 。 于 是 就 出 现 了 两 个 线程 同时 操 





作 一 个 socket 的 局 面 。 这 当然 不 是 我 们 期 望 的 。 我 们 期 望 的 是 一 个 socket 
连接 在 任 一 时 刻 都 只 被 一 个 线程 处 理 。 这 一 点 可 以 使 用 epol 的 
EPOLLONESHOT 事 件 实现 。 


对 于 注册 了 EPOLLONESHOT 事 件 的 文件 描述 符 ， 操 作 系统 最 多 触 
发 其 上 注册 的 一 个 可 读 、 可 写 或 者 异常 事件 ， 且 只 触发 一 次 ， 除 非 我 们 
使 用 epoll_ctl 函 数 重 置 该 文件 描述 符 上 注册 的 EPOLLONESHOT 事 件 。 
这 样 ， 当 一 个 线程 在 处 理 某 个 socket 时 ， 其 他 线程 是 不 可 能 有 机 会 操作 
该 socket 的 。 但 反 过 来 思考 ， 注 册 了 EPOLLONESHOT 事 件 的 socket 一 旦 
被 某 个 线程 处 理 完毕 ， 该 线程 就 应 该 立即 重 置 这 个 socket 上 的 
EPOLLONESHOT 事 件 ， 以 确保 这 个 socket 下 一 次 可 读 时 ， 其 EPOLLIN 
事件 能 被 触发 ， 进 而 让 其 他 工作 线程 有 机 会 继续 处 理 这 个 socket。 











代码 清单 9-4 展 示 了 EPOLLONESHOT 事 件 的 使 用 。 


代码 清单 9-4 ”使 用 EPOLLONESHOT 事 件 





#in 
#in 
#in 
#in 
#in 
#in 
#in 
#in 
#in 
#in 
#in 
#in 
#in 


lude=sys/types.h> 
lude=<=sys/socket.h> 
lude<netinet/in.h> 
lude<arpa/inet.hn> 
lude<=assert.h> 
lude=stdio.h> 
lude<=unistd.n> 
lude<=errno.h> 
lude=string.h> 
ude=fcntl.h> 
lude=stdlipb.n> 
lude=sys/epoll.h> 
lude<=pthread.h> 














Oooooooooooao oo 
































#define MAX EVENT _ NUMBER 1024 
#define BUFFER SIZE 1024 
struct fds 
































int epollfdqd; 
int sockfd; 











int setnonblocking (int fqd) 








int old option=fcntl (fd,F GETFL); 
int new option=old option|O NONBLOCK; 
fcntl1 (fd,F SETFL,new option); 
return old option; 
} 
/* 将 fd 上 的 EPOLLIN 和 EPOLLET 事 件 注册 到 epollfd 指 示 的 epol1l 内 核 事 件 表 中 ， 参 数 
oneshot 指 定 是 否 注 册 fd 上 的 EPOLLONESHOT 事 件 */ 
void addfd(int epollfd,int fd,bool oneshot) 
{ 
epoll event event; 
event .data.fd=fd; 










































































































































































vent .events=EPOLLIN|EPOLLET; 
if (oneshot) 

{ 

vent .events|=EPOLLONESHOT; 

} 














epoll ctl (epollfd,EPOLL CTL ADD, fd, &event); 

setnonblocking (fd) ， 

} 

/* 重 置 fq 上 的 事件 。 这 样 操 作 之 后 ， 尽 管 fd 上 的 EPOLLONESHOT 事 件 被 注册 ， 但 是 操作 
系统 仍然 会 触发 fg 上 的 EPOLLIN 事 件 ， 且 只 触发 一 次 */ 

void reset oneshot (int epollfdqd,int fd) 

{ 

epoll event event; 

event .data.fd=fd; 

vent .events=EPOLLIN|EPOLLET|EPOLLONESHOT; 

epoll ctl (epollfd,EPOLL CTL MOD, fd, &event); 















































































































































} 

/* 工 作 线 程 */ 
void*worker (void*arg) 
{ 
int sockfd=((fds*)arg)-~>sockfd; 
int epollfd=((fds*)arg)-~>epollfd; 

printf("start new thread to receive data on fd:%d\n",sockfd); 
char buf [BUFFER SIZE]; 
memset (buf, '\0',BUFFER SIZE); 
/* 循 环 读 取 sockf9 上 的 数据 ， 直 到 过 到 EAGAIN 错 误 */ 
while (1) 

{ 







































































































































































int ret=recv (sockfd,buf,BUFFER 
if (ret==0) 

{ 

close (sockfqd); 

printf ("foreiner closed th 


break; 


lse if (ret<=0) 




















f (errno==EAGAIN) 














reset oneshot (epollfd,sockfd 








printf("read later\n"); 











printf("get content:$%s\n",bu 


/* 休 眼 5s， 模 拟 数据 处 理 过 程 * 




















sleep (5) ， 
} 
} 





/ 











TO) 


connection\n"); 


); 





Fn 
~ 一 








printf("end thread receiving data on fd:%Sd\n",sockfd); 

} 

int main(int argc,char*argv[]) 

{ 

if (argc==2) 

{ 

printf("usage:%s ip address port number\n",basename (argv{[0])); 


Fal= hb ee ls 

} 

const char*ip=argv[1]; 
int port=atoi (argv[21); 
int ret=0; 








struct sockaddr in address; 
bzero (&address,sizeof (address)); 














address.sin family=AF 





NET; 














inet pton (AF INET,ip,&address.sin addr); 
address.sin port=htons (port); 

















int listenfd=socket (PE 
assert (listenfd>=0)， 





























NET, SOCK STREAM,0); 





ret=bind(listenfd, (struct sockaddr*) &address,sizeo 


























assert (ret!=-1);) 
ret=listen (listenfd,5); 
assert (ret!=-1);) 
epoll event events [MAX 




















int epollfd=epoll] create(5); 


EVENT NUM) 





BE 








f (address) );，; 








assert (ebpol1fdq!=-1)， 
/x* 注 意 ， 监 听 socket 1listenfqd 上 是 不 能 注册 EPOLLONESHOT 事 件 的 ， 否 则 应 用 程序 只 
能 处 理 一 个 客户 连接 ! 因为 后 续 的 客户 连接 请 求 将 不 再 触发 1istenfd 上 的 EPOLLIN 事 件 */ 
addfqd (epollfdqd,1listenfd, false);} 
while(1) 
{ 
int ret=epoll wait (epollfd,events,MAX EVENT NUMBER,-1); 
if (ret<=0) 
{ 
printf ("epoll failure\n"); 
break; 
} 
for (int i=0;i<ret;i++) 
{ 
int sockfd=events[i].data.fd; 
if (sockfd==listenfd) 
{ 
struct sockaddr in client address; 
socklen t client addrlength=sizeof (client address); 
int connfd=accept (listenfd, (struct sockaddr*) &client address,& 
client addrlength); 
/* 对 每 个 非 监听 文件 描述 符 都 注册 EPOLLONESHOT 事 件 */ 
addfd (epollfd,connfd,true); 
} 
else if(events[i] .events&EPOLLIN) 
{ 
pthread t thread; 
fds fds for new worker; 
fds for new worker.epollfd=epollfd; 
fds for new worker.sockfd=sockfd; 
/* 新 启动 一 个 工作 线程 为 sockfqd 服 务 */ 
pthread create(&thread,NULL,worker, (void*) &fds for new worker); 
} 
else 
{ 
printf("something else happened\n"); 
} 
} 
} 
close (listenfdqd); 
return 0; 


} 





























































































































































































































































































































从 工作 线程 图 数 worker 来 看 ， 如 果 一 个 工作 线程 处 理 完 茶 个 socket 


上 的 一 次 请 求 〈 我 们 用 休眠 5 s 来 模拟 这 个 过 程 ) 之 后 ， 又 接收 到 该 
socket 上 新 的 客户 请 求 ， 则 该 线程 将 继续 为 这 个 socket 服 务 。 并 且 因为 该 
socket 上 注册 了 EPOLLONESHOT 事 件 ， 其 他 线程 没有 机 会 接触 这 个 
socket， 如 果 工 作 线 程 等 待 5 s 后 仍然 没收 到 该 socket 上 的 下 一 批 客户 数 
据 ， 则 它 将 放弃 为 该 socket 服 务 。 同 时 ， 它 调用 reset_oneshot 函 数 来 重 置 
该 socket 上 的 注册 事件 ， 这 将 使 epoll 有 机 会 再 次 检测 到 该 socket 上 的 
EPOLLIN 事 件 ， 进 而 使 得 其 他 线程 有 机 会 为 该 socket 服 务 。 


由 此 看 来 ， 尽 管 一 个 socket 在 不 同时 间 可 能 被 不 同 的 线程 处 理 ， 但 
同一 时 刻 肯 定 只 有 一 个 线程 在 为 它 服 务 。 这 束 保 证 了 连接 的 完整 性 ， 从 
而 避免 了 很 多 可 能 的 范 态 条 件 。 





9.4 三 组 IO 复 用 函数 的 比较 


前 面 我 们 讨论 了 select、poll 和 epoll 三 组 IO 复 用 系统 调用 ， 这 3 组 系 
统 调用 都 能 同时 监听 多 个 文件 描述 符 。 它 们 将 等 待 由 timeout 参 数 指定 的 
超时 时 间 ， 直 到 一 个 或 者 多 个 文件 描述 符 上 有 事件 发 生 时 返回 ， 返 回 值 
是 就 绪 的 文件 描述 符 的 数量 。 返 回 0 表 示 没 有 事件 发 生 。 现 在 我 们 从 事 
件 集 、 最 大 支持 文件 描述 符 数 、 工 作 模式 和 具体 实现 等 四 个 方面 进一步 
比较 它们 的 异同 ， 以 明确 在 实际 应 用 中 应 该 选择 使 用 哪个 (或 哪些 ) 。 





这 3 组 函数 都 通过 某 种 结构 体 变 量 来 告诉 内 核 监听 哪些 文件 描述 符 
上 的 哪些 事件 ， 并 使 用 该 结构 体 类 型 的 参数 来 获取 内 核 处 理 的 结 
select 的 参数 类 型 fd_set 没 有 将 文件 描述 符 和 事件 绑 定 ， 它 仅仅 是 一 个 文 
件 描述 符 集合 ， 因 此 select 需 要 提供 3 个 这 种 类 型 的 参数 来 分 别传 入 和 和 输 
出 可 读 、 可 写 及 异常 等 事件 。 这 一 方面 使 得 select 不 能 处 理 更 多 类 型 的 
事件 ， 另 一 方面 由 于 内 核对 fd_set 集 合 的 在 线 修 改 ， 应 用 程序 下 次 调用 
select 前 不 得 不 重 置 这 3 个 fd_set 集 合 。poll 的 参数 类 型 pollfd 则 多 少 “ 陪 
明 ” 一 些 。 它 把 文件 描述 符 和 事件 都 定义 其 中 ， 任 何事 件 都 被 统一 处 
理 ， 从 而 使 得 编程 接口 简洁 得 多 。 并 且 内 核 每 次 修改 的 是 pollfd 结 构 体 
的 revents 成 员 ， 而 events 成 员 保 持 不 变 ， 因 此 下 次 调用 poll 时 应 用 程序 无 
须 重 置 pollfd 类 型 的 事件 集 参 数 。 由 于 每 次 select 和 poll 调 用 都 返回 整个 
用 户 注册 的 事件 集合 (其 中 包括 就 绪 的 和 未 就 绪 的 ) ， 所 以 应 用 程序 索 








引 就 绪 文 件 描 述 符 的 时 间 复 杂 度 为 O(n) 。epoll 则 采用 与 select 和 poll 完 
全 不 同 的 方式 来 管理 用 户 注册 的 事件 。 它 在 内 核 中 维护 一 个 事件 表 ， 并 
提供 了 一 个 独立 的 系统 调用 epoll_ctl 来 控制 往 其 中 添加 、 删 除 、 修 改 事 
件 。 这 样 ， 每 次 epoll_wait 调 用 都 直接 从 该 内 核 事 件 表 中 取得 用 户 注册 

的 事件 ， 而 无 须 反 复 从 用 户 空 间 读 入 这 些 事件 。epoll_wait 系 统 调用 的 

events 参 数 仅 用 来 返回 就 绪 的 事件 ， 这 使 得 应 用 程序 索引 就 绪 文 件 描 述 
符 的 时 间 复 杂 度 达到 O (1)。 











poll 和 epoll_wait 分 别 用 nfds 和 maxevents 参 数 指定 最 多 监听 多 少 个 文 
件 描述 符 和 事件 。 这 两 个 数值 都 能 达到 系统 允许 打开 的 最 大 文件 描述 符 
数目 ， 即 65 535 (cat/proc/sys/fs/file-max) 。 而 select 允 许 监听 的 最 大 文 
件 描述 符 数量 通常 有 限制 。 虽 然 用 户 可 以 修改 这 个 限制 ， 但 这 可 能 导致 
不 可 预期 的 后 果 。 








select 和 poll 都 只 能 工作 在 相对 低 效 的 LT 模式 ， 而 epoll 则 可 以 工作 在 
ET 高 效 模式 。 并 且 epoll 还 支持 EPOLLONESHOT 事 件 。 该 事件 能 进一步 
减少 可 读 、 可 写 和 异常 等 事件 被 触发 的 次 数 。 





从 实现 原理 上 来 说 ，select 和 poll 及 用 的 都 是 轮 询 的 方式 ， 即 每 次 调 
用 都 要 扫描 整个 注册 文件 描述 符 集 合 ， 并 将 其 中 就 绪 的 文件 描述 符 返 回 
给 用 户 程 序 ， 因 此 它们 检测 束 绪 事件 的 算法 的 时 间 复 杂 度 是 O(n) 。 
epoll_wait 则 不 同 ， 它 采用 的 是 回调 的 方式 。 内 核 检测 到 就 绪 的 文件 摘 
述 符 时 ， 将 触 用 回调 函数 ， 回 调 函 数 束 将 该 文件 描述 符 上 对 应 的 事件 插 


入 内 核 就 绪 事 件 队 列 。 


容 找 贝 到 用 户 空 


训 哪 些 事件 己 经 就 绪 ， 


内 核 最 后 在 适 
s 间 。 因 此 epoll_wait 无 须 轮 询 整个 文件 搬 述 
其 算法 时 间 复 杂 度 是 O (1) 。 


互 当 的 时 机 将 该 丈 绪 事件 队列 中 的 内 


从 集合 来 检 
但 是 ， 当 活动 连 


接 比较 多 的 时 候 ，epoll_wait 的 效率 未 必 比 select 和 pol 高 ， 因 为 此 时 回调 


函数 被 触发 得 过 于 频繁 。 


接 较 少 的 情况 。 


所 以 epoll_wait 适 





下 用 于 连接 数量 多 ， 但 活动 连 


最 后 ， 为 了 便于 阅读 ， 我 们 将 这 3 组 IO 复 用 系统 调用 的 区 别 总 结 


表 9-2 中 。 


系统 调用 


事件 集合 


表 9-2 select、poll 和 epoll 的 区 别 


用 户 通 过 3 个 参数 分 别传 
入 感 兴趣 的 可 读 、 可 写 及 异 
常 等 事件 ， 内 核 通过 对 这 些 
参数 的 在 线 修改 来 反馈 其 中 
的 就 绪 事件 。 这 使 得 用 户 每 
次 调用 select 都 要 重 置 这 3 
个 参数 


Select poll 


统一 外 再 所 有 事件 类 型 ， 
因此 只 需 一 个 事件 集 参 数 。 
用 后 生计 pollfd.events 传人 
感 兴趣 的 事件 ， 内 核 通过 
修改 pollfd.revents 反馈 其 
中 就 绪 的 事件 


epoll 

内 核 通 过 一 个 事件 表 直 
接管 理 用 户 感 兴趣 的 所 有 
事件 。 因 此 每 次 调用 epoll_ 
wait 时 ， 无 须 反 复 传 人 用 户 
感 兴趣 的 事件 。epoll_wait 
系统 调用 的 参数 events 仅 用 
来 反馈 就 绪 的 事件 





i 
述 符 的 时 间 复 杂 度 
i 

工作 模式 


内 核实 现 和 工作 效率 


O(n) 


一 般 有 最 大 值 限制 


采用 轮 询 方式 来 检测 就 绪 


事件 ， 
O(n) 


算法 时 间 复 杂 度 为 





O(n) 


采用 轮 询 方式 来 检测 就 
绪 事 件 ， 算 法 时 间 复 杂 度 
为 O(n) 





O(1) 


65 535 

支持 ET 高 效 模式 

采用 回调 方式 来 检测 就 绪 
事件 ， 算 法 时 间 复 杂 度 为 
O(D) 





9.5 IO 复 用 的 高 级 应 用 一 : 非 阻 塞 connect 


connect 系 统 调 用 的 man 手 册 中 有 如 下 一 段 内 容 : 











EINPROGRESS 

The socket is nonblocking and the connection cannot be completed 
immediately.It is possible to select(2)or poll(2)for completion by 
selecting the socket for writing.After select(2) indicates 
writability,use getsockopt (2)to read the SO ERROR option at level 
SOL SOCKET to determine whether connect()completed 
successfully(SO ERROR is zero)or unsuccessfully(SO ERROR is one of 
the usual error codes listed here,explaining the reason for the 
failure). 



















































































这 段 话 描述 了 connect 出 错时 的 一 种 errno 值 : EINPROGRESS。 这 种 
错误 发 生 在 对 非 阻 塞 的 socket 调 用 connect， 而 连接 又 没有 立即 建立 时 。 
根据 man 文 档 的 解释 ， 在 这 种 情况 下 ， 我 们 可 以 调用 select、poll 等 函数 
来 监听 这 个 连接 失败 的 socket 上 的 可 写 事件 。 当 select、poll 等 函数 返 
后 ， 再 利用 getsockopt 来 读 取 错误 码 并 清除 该 socket 上 的 错误 。 如 果 错 误 
码 是 0， 表 示 连 接 成 功 建立 ， 否 则 连接 失败 。 


过 上 面 描述 的 非 阻塞 connect 方 式 ， 我 们 就 能 同时 发 起 多 个 连接 并 
一 起 等 待 。 下 面 看 看 非 阻塞 connect 的 一 种 实现 四 ， 如 代码 清单 9-5 所 


通 
和 鱼 


代码 清单 9-5“ 非 阻塞 connect 





#inc] 
#inc] 
#inc] 
#inc] 
#inc] 


#incl 


#inc] 
#inc] 
#inc] 
#inc] 





ude=sys/types.h> 
ude=sys/socket.h> 
ude<=netinet/in.h> 
ude=arpa/inet.h> 
ude=stdlipb.n> 
ude=assert.h> 
ude=stdio.h> 
ude=time.h> 
ude=errno.h> 
ude=fcntl.h> 











# 半 i ] 
# 守 从 
#1 








ude=sys/ioctl.n> 
ude=unistd.n> 





ude=string.h> 




















#define BUFFER SIZE 1023 
int setnonblocking (int fd) 


int new op 























int old option=fcntl (fd,F GETFL); 
t tion=old option|O NON 











Cn 七 人 











fd,F SETFL,new option); 











return old option; 


/* 超 时 连接 函数 ， 参 数 分 别 是 服务 器 ] 
己 经 处 于 连接 状态 的 socket， 失 败 则 返回 


加 














—1*/ 


BLOCK; 


[P 地 址 、 端 口号 和 超时 时 间 《〈 受 秒 ) 。 函 数 成 功 时 返 








int unblock connect (const char*ip,int port,int time) 


{ 





int ret=0; 
struct sockaddr in address; 


bzero (&address,sizeo 

















address.sin family=AF INET; 
inet pton (AF INET,ip,&address.sin addr); 
address.sin port=htons (port); 


int sockfd=socket (PF_ INET,SOCK STR 
































int fdopt=setnonblocking(sock 

















f (adqdqress) ) 





faq) 


EAM, 0); 





ret=connect (sockfd, (struct sockaddr*) &address,sizeof (address)); 
if (ret==0) 





{ 

/* 如 果 连 接 成 功 ， 则 恢复 socki 
训 全 it 在 
fcntl(sockfd,F SETFL,fdopt); 











Ed 的 属性 ， 并 立即 返回 之 */ 


("connect with server immediately\n"); 




















return sockfd; 


} 


else 


1 

















f (errno!=EINPROGRESS) 





{ 
/* 如 果 连 接 没 有 立即 建立 ， 那 么 





























只 有 当 errno 是 EINPROGRI 





PSS 时 才 表 示 连 接 还 在 进行 ， 








否则 出 错 返 回 */ 
("unblock connect not support\n"); 
return-1; 


书写 下 


} 














fd set readfds; 











fd set writefds; 


struct timeval timeout; 
FD ZERO(&readfds); 


FD SET(sockfd, &writef 
timeout.tv sec=time; 
timeout.tv usec=0; 






































ds); 


ret=select (sockfd+1,NULL, &writefds,NULL, &timeout); 














i 


{ 


/*select 





(ret==0) 











国 时 或 者 出 错 ， 立 即 返回 */ 


Printf("connection time out\n"); 
close (sockfqd); 


return-1; 


} 
11 


{ 




















(!FD ISSET(sockfd,& 











Aci 

close (sockfd); 
return-1; 

} 

int error=0; 








writefds)) 














f ("no events on sockfd found\n"); 











socklen 七 length=sizeof (error); 
/* 调 用 getsockopt 来 获取 并 清除 sockfd 上 的 错误 */ 








a 


{ 


printf ("ge 


(getsockopt (SOCK: 











close (sockfd);) 
return-1; 


} 
/* 错 误 写 不 为 0 表示 连接 出 错 





外 | 


{ 


print 
error: 








(error!=0) 





fF ("connection 























fd, SOL SOCKET,SO ERROR, &error, &length) <=0) 





t socket option failed\n"); 


人 





failed after select with the 





Sd\n",error); 





close (sockfd);) 
return-1; 


} 
/* 连 接 成 功 */ 


print 





socket:%Sd\n",sockfd) 





ES 





fcntl (sockfd,Fr S] 
turi SOCKkKEd: 








下 


PTFT，: 








f ("connection ready after select with the 


fdopt); 














f (argc==2) 


t main(int argc,char*argv|[]) 





printf("usage:%s ip address port number\n",basename (argv{[0])); 
return 1; 

} 

const char*ip=argv[1]; 

int port=atoi (argv[21); 

int sockfd=unblock connect (ip,port,10); 

if (sockfd=0) 

{ 
Ee = 为 5 ba 

} 

close (sockfd);} 
return 0; 


} 





























但 遗憾 的 是 ， 这 种 方法 存在 几 处 移植 性 问题 。 首 先 ， 非 阻塞 的 
socket 可 能 导致 connect 始 终 失 败 。 其 次 ，select 对 处 于 EINPROGRESS 状 
态 下 的 socket 可 能 不 起 作用 。 最 后 ， 对 于 出 错 的 socket，getsockopt 在 有 
些 系统 (比如 Linux〉 上 返回 -1《〈 正 如 代码 清单 9-5 所 期 望 的 ) ， 而 在 有 
些 系 统 〈 比 如 源 自 伯 克利 的 UNIX) 上 则 返回 0。 这 些 问题 没有 一 个 统一 
的 解决 方法 ， 感 兴趣 的 读者 可 自行 参考 相关 文献 。 








9.6 LIO 复 用 的 高 级 应 用 二 : 聊天 室 程序 


像 sh 这 样 的 登录 服务 通常 要 同时 处 理 网 络 连接 和 用 户 输入 ， 这 也 
可 以 使 用 VO 复 用 来 实现 。 本 节 我 们 以 poll 为 例 实现 一 个 简单 的 聊天 室 程 
序 ， 以 阐述 如 何 使 用 VO 复 用 技术 来 同时 处 理 网 络 连接 和 用 户 输入 。 该 
聊天 室 程序 能 让 所 有 用 户 同时 在 线 群 聊 ， 它 分 为 客户 端 和 服务 器 两 个 部 
分 。 其 中 客户 端 程序 有 两 个 功能 : 一 是 从 标准 输入 终端 读 入 用 户 数 据 ， 
并 将 用 户 数据 发 送 至 服务 器 ; 二 是 往 标准 输出 终端 打印 服务 器 发 送 给 它 
的 数据 。 服 务 器 的 功能 是 接收 客户 数据 ， 并 把 客户 数据 发 送 给 每 一 个 登 
录 到 该 服务 器 上 的 客户 端 〈 数 据 发 送 者 除外 ) 。 下 面 我 们 依次 给 出 客户 
端 程 序 和 服务 器 程序 的 代码 。 


9.6.1 客户 端 


客户 端 程 序 使 用 pol 同 时 监听 用 户 输入 和 网 络 连接 ， 并 利用 splice 函 
数 将 用 户 输 入 内 容 直 接 定 向 到 网 络 连接 上 以 发 送 之 ， 从 而 实现 数据 零 找 
贝 ， 提 高 了 程序 执行 效率 。 客 户 端 程序 如 代码 清单 9-6 所 示 。 


代码 清单 9-6 聊天 室 客户 端 程序 











#define GNU SOURCE 1 
#include=sys/types.h> 
#include=sys/socket.h> 





#incl 
#incl 
#incl 
#incl 
#incl 
#incl 
#incl 
#incl 
#inc] 





ude<=netinet/in.h> 
ude=<=arpa/inet.h> 
ude=assert.h> 
ude=stdio.h> 
ude=unistd.n> 
ude=string.h> 
ude=stdlipb.n> 
ude=poll.h> 
ude=fcntl.h> 




















#de 














fine BUFFER SIZE 64 














int main(int argc,char*argv[]) 


{ 





{ 


if (argc==2) 





printf("usage:%s ip address port number\n",basename (argv{[0])); 
return 1; 


} 


const char*ip=argv[1]; 
int port=atoi (argv[21); 
struct sockaddr in server address; 


bzero(&server address,sizeo 











(server address)); 




















server address.sin family=AF INET; 

inet pton(AF INET,ip,&server address.sin addr); 
server address.sin port=htons (port); 

int sockfd=socket (PF INET,SOCK STREAM,0); 
assert (sockfd>>=0)，; 





{ 









































if (connect (sockfd, (struct sockaddr*)& 
server address,sizeo 








(server address))=0) 








printf("connection failed\n"); 
close (sockfd);) 
关公 巧合 基 译 ， 汗 凶 


} 














Pol] 


/* 注 


fds 


[0 
[0 
[0 


FB [2] 
册 文 件 描述 符 0 (标准 输入 〉 和 文件 描述 符 sockfd 上 的 可 读 事 件 */ 
































] .fd=0; 

] .events=POLLIN; 
] .revents=0; 
.fd=sockfd; 





























1] .events=POLLIN|POLLRDHUP; 
1] .revents=0;} 











char read buf [BUFFER SIZE]; 
int pipefd[2]; 






































int ret=pipe (pipefd); 
assert (ret!=-1);) 
while(1) 


{ 


ret=poll] 








一 


f dS 2 TE 








if (zet<0) 





{ 








Printf("pol1 failure\n"); 





break; 


} 








1f\( 


fds [1] .revents 儿 POLLRDHUPI) 








{ 





printf("server close the connection\n"); 





break; 


} 





else if(fds[1] .revents&pProLLIN) 














{ 


memset (read buf,'\0',BUFFER SIZE) 














AN。 














recv (fds[1].fd,read buf,BUFFER SIZE-1,0); 
































printf("%s\n",read buf); 


} 

















if( 
{ 


/* 使 用 splice 将 用 户 输入 的 数据 直接 写 到 sockfdq 上 《和 零 捞 贝 ) */ 


fds [0] .revents 点 POLLIN) 












































ret=splice (0, NULL, pipefd[1],NULL,32768,SPLICE F MORE|SPL 





ret=splice (pipefd[0],NULL,sockfd,NULL,32768,SPLICE 


} 
} 





























close (sockfd);) 
return 0; 


} 


' F MOR 

















加 





9.6.2 


服务 器 


服务 器 程序 使 用 poll 同 时 管理 监听 socket 和 连接 socket， 并 且 使 用 牺 
牲 空间 换取 时 间 的 策略 来 提高 服务 器 性 能 ， 如 代码 清单 9-7 所 示 。 


代码 清单 9-7 聊天 室 服 务 占 程序 





#de 





Fine GNU SOURCE 1 





#include=sys/types.h> 
#include=sys/socket.h> 
#include<netinet/in.h> 
#include=arpa/inet.h> 





#include=<=assert.n> 
#include=stdio.h> 
#include=<=unistd.n> 
#include=<errno.h> 
#include=string.h> 
#include=<fcntl.h> 
#include=stdlib.hn> 
#include<poll.h> 
#define USER LIMIT 5/ 
#define BUFFER SIZE 6 
#define FD LIMIT 6553 







































































struct client data 

{ 

sockaddr in address; 
char*write buf; 








char buf [BUFFER SIZE]; 




















}; 


int setnonblocking (in 


* 最 大 用 户 数 量 */ 
4/* 读 缓冲 区 的 大 小 */ 

a 5/* 文 件 描述 符 数量 限制 */ 

/客户 数据 ;客户 端 socket 地 址 、 待 写 到 客户 端的 数据 的 位 置 、 从 客户 端 读 入 的 数据 */ 














r 








t fd) 











Fd,F GETFL 








int old option=fcntl( 















































); 





int new option=old option|O NONBLOCK; 
fcntl1 (fd,F SETFL,new option); 

return old option; 

} 

int main(int argc,char*argv[]) 

{ 

if (argc==2) 

{ 

printf("usage:%s ip address port number\n",basename (argv{[0])); 
return 1; 

} 

const char*ip=argv[1]; 

int port=atoi (argv[21); 

int ret=0; 

struct sockaddr in address; 

bzero (&address,sizeof (address)); 

















address.sin family=AF INET; 
inet pton (AF INET,ip,&address.sin addr); 

















address.sin port=hton 
int listenfd=socket(P 
assert (listenfd>=0)， 




















s (port); 

















F_ INET,SOCK STREAM,0); 











ret=bind (listenfd, (struct sockaddr*) &address,sizeof (address)); 








assert (ret!=-1);} 
ret=listen (listenfd,5 
assert (ret!=-1);} 


/* 创 建 users 数 组 ， 分 配 FD 



































); 





LIMIT 个 cli 











ent_data 对 象 。 可 以 预期 :每 个 可 能 了 

















socket 连 接 都 可 以 获得 一 个 这 样 的 对 象 ， 并 且 socket 的 值 可 以 直接 用 来 索引 作为 数组 的 下 














标 〉socket 连 接 对 应 的 client_data 对 象 ， 这 是 将 socket 和 客户 数据 关联 的 简 


方式 */ 























上 





单 而 高 效 的 




















client data*users=new client datalFD LIMIT]; 


/* 尽 管 我 们 分 配 了 足够 多 的 client_data 对 象 ， 但 为 了 提高 bo11 的 性 能 ， 仍 然 有 必要 限 








制 用 户 的 数量 */ 











世人 十 相 











Fds [USER LIMIT+1]; 











int user counter=0; 





























+ 十 主 ) 
























































for (int i=1;i<~=USER L MIT; 

{ 

fds[i].fd=-1; 

fds[i] .events=0; 

fds[0] .fd=listenfdqd; 

fds[0] .events=POLLIN|POLLERR; 
fds[0] .revents=0;}) 

while(1) 

{ 

ret=poll (fds,user counter+l,-1); 
if (ret<=0) 











printf ("poll failure\n"); 











{ 




















{ 


struct 





socklen 


for(int i=0;i<user countert+l;++i) 





if((fds[i].fd==listenfd) && (fds[il].revents&poLLIN)) 





sockaddr in client address; 








t client addrlength=sizeof (client address); 








int connfd=accept (listenfd, (struct sockaddr*) &client address,& 
client addrlength); 
if (connfd=0) 





{ 








printf ("errno is:%d\n",errno); 





continue; 


} 
/* 如 果 请 求 太 多 ， 则 关闭 新 到 的 连接 */ 





{ 


if(user counter~>=USER LIM 




















T) 


const char*info="too many users\n"; 
Brintf (SS ;info);y 

send (connfd, info, strlen (ini 
close (connfd); 

continue; 











} 
/* 对 于 新 的 连接 ， 同 时 修改 1 

















fo0) ,0); 











新 连接 文件 描述 符 connfqd 的 客户 数据 */ 


User countertt+; 














Fds 和 users 数 组 。 前 文 已 经 提 到 ，users [connfd] 对 应 于 








users [connfdq] .address=client address; 
Setnonpblockind(connfd) ， 

fds[luser counter].fd=connfd; 

fds[luser Counter] .events=POLLIN|POLLRDHUP| POLLERR; 
fds[luser counter].revents=0; 

printf("comes a new user,now havegsq users\n",user counter); 
} 

else if(fds[i].revents&pPOLLERR) 

{ 

printf("get an error fromgsqxn'"y fdqs [Il .fdq) ， 

char errors[100]; 

memset (errors,'\0',100); 

socklen t length=sizeof (errors); 

if (getsockopt (fds{[i].fd,SOL SOCKET,SO ERROR, &errors, 
&length) =0) 











































































































{ 

printf("get socket option failed\n"); 
} 

continue; 

} 











else if(fds[il].revents&pPrOoOLLRDHUP) 





{ 

/* 如 果 客 户 端 关 闭 连接 ， 则 服务 器 也 关闭 对 应 的 连接 ， 并 将 用 户 总 数 减 1*/ 

users[fds[i].fdl=usersl[lfds[user counter] .fqd]; 

close (fds[i].fqd); 

fds[i]=fds[luser counter]; 

和 

US CO 人 七 总 下 二 一 

printf("a client left\n"); 

} 

else if(fds[i].revents&PpPoOLLIN) 

{ 

int connfd=fds[i].fqd; 

memset (users[connfd] .buf,'\0',BUFFER SIZE); 

ret=recv (connfd,users[connfd] .buf,BUFFER SIZE-1,0); 
printf ("get®%d bytes of client datas%ss 

fromsd\n",ret,users[connfd] .buf,connfd); 
if (ret<=0) 
























































































































































if (errno!=EAGAIN) 











{ 
/* 如 果 读 操作 出 错 ， 则 关闭 连接 */ 
{ 





close (connfqd); 
users[fds[i].fdl=usersl[fds[user counter] .fd]; 
fds[i]=fds[user counter]; 
下 二 二 





























USer COunLerm-y 


} 





else if (ret==0) 


else 
































{ 
/* 如 果 接 收 到 客户 数据 ， 则 通知 其 他 socket 连 接 准 备 写 数据 */ 


























for(int j=1;j<=user counter;++j) 
{ 

if (fds[j].fd==connfd) 

{ 

continue; 

} 


fds[j] .events |= 人 一 POLLIN 
fdqs []] .events |=POLILOUT ， 
users[fds[j].fd] .write buf=users[connfd] .buf; 





























lse if(fds[i].revents&pPpOoOLLOUT) 

















nt connfd=fds[i].fd; 


f(!lusers[connfd] .write buf 

















一 HH- HP 0，0 


continue; 

} 

ret=send (connfd,users[connfd] .write buf,strlen(users[lconnfd] .write 
users[connfd] .write buf=NULL; 

/* 写 完 数据 后 需要 重新 注册 fqs [i] 上 的 可 读 事 件 */ 
fds[i].events|=~POLLOUT; 

fds[i] .events|=POLLIN; 

} 

} 

} 

delete[]users; 

close (listenfd); 

return 0; 


} 


ee | 
























































9.7 VO 复 用 的 高 级 应 用 三 : 同时 处 理 TCP 和 UDP 


服务 





至 此 ， 我 们 讨论 过 的 服务 器 程序 都 只 监听 一 个 端口 。 在 实际 应 用 
中 ， 有 不 少 服务 器 程序 能 同时 监听 多 个 端口 ， 比 如 超级 服务 inetd 和 
android 的 调试 服务 adbd。 


从 bind 系 统 调 用 的 参数 来 看 ， 一 个 socket 只 能 与 一 个 socket 地 址 绑 
定 ， 即 一 个 socket 只 能 用 来 监听 一 个 端口 。 因 此 ， 服 务 器 如 果 要 同时 监 
听 多 个 端口 ， 就 必须 创建 多 个 socket， 并 将 它们 分 别 绑 定 到 各 个 端口 
上 。 这 样 一 来 ， 服 务 器 程序 就 需要 同时 管理 多 个 监听 socket，LIO 复 用 技 
术 就 有 了 用 武之 地 。 另 外 ， 即 使 是 同一 个 端口 ， 如 果 服 务 器 要 同时 处 理 
该 端口 上 的 TCP 和 UDP 请 求 ， 则 也 需要 创建 两 个 不 同 的 socket: 一 个 是 
流 socket， 另 一 个 是 数据 报 socket， 并 将 它们 都 绑 定 到 该 端口 上 。 比 如 代 
码 清 单 9-8 所 示 的 回 射 服 务 器 就 能 同时 处 理 一 个 端口 上 的 TCP 和 UDP 请 


代码 清单 9-8 同时 处 理 TCP 请 求 和 UDP 请 求 的 回 射 服 务 器 





#include=<=sys/types.h> 
#includqe< sys/socket.h> 
#include<netinet/in.h> 
#include=<=arpa/inet.h> 
#include=<assert.n> 





#include=stdio.h> 
#include=<=unistd.n> 
#include=<=errno.h> 
#include=string.h> 
#include<=<fcntl.h> 
#include=stdlib.nhn> 
#include=<=sys/epoll.n> 
#include<=<=pthread.h> 

#define MAX EVENT NUMBER 1024 
#define TCP BUFFER SIZE 512 
#define UDP: BUEEER SLLE 1024 
int setnonblocking (int fqd) 

























































































int old option=fcntl (fd,F GETFL); 
int new option=old option|O NONBLOCK; 
cntl (fd,F SETFL,new option); 

return old option; 















































void addfd(int epollfd,int fd) 

{ 

epoll event event; 

event .data.fd=fd; 

vent .events=EPOLLIN|EPOLLET; 

epoll ctl (epollfd,EPOLL CTL ADD, fd, &event); 
setnonblocking (fd) ， 

} 
int main(int argc,char*argv[]) 

{ 

if (argc==2) 

{ 

printf("usage:%s ip address port number\n",basename (argv{[0])); 
return 1; 

} 

const char*ip=argv[1]; 

int port=atoi (argv[21); 

int ret=0; 

struct sockaddr in address; 

bzero (&address,sizeof (address)); 

address.sin family=AF INET; 

inet pton (AF INET,ip,&address.sin addr); 

address.sin port=htons (port); 

/* 创 建 TCP socket， 并 将 其 绑 定 到 端口 port 上 */ 

int listenfd=socket (PF INET,SOCK STREAM,0); 

assert (listenfd~>=0);} 

ret=bind (listenfd, (struct sockaddr*) &address,sizeof (address)); 
assert (ret!=-1);，) 

ret=listen (listenfd,5);} 

assert (ret!=-1);) 



















































































































































































/x 创 建 UDP socket， 并 将 其 绑 定 到 端口 port_ 上 */ 
bzero (&address,sizeof (address)); 
address.sin family=AF INET; 

inet pton (AF INET,ip,&address.sin addr); 
address.sin port=htons (port); 

int udpfd=socket (PF INET,SOCK DGRAM, 0); 
assert (udqpfdq 之 =0) ; 
ret=bind (udpfd, (struct sockaddr*) &address,sizeof (address)); 
assert (ret!=-1);) 
epoll event events [MAX EVENT NUMBE 
int epollfd=epoll] create(5); 
assert (epollfd!=-1); 

/* 注 册 TCP socket 和 UDP socket 上 的 可 读 事件 */ 
addfd (epollfd,1istenfd); 

addfqd (epollfdqd,udpfdqd); 

while(1) 

{ 

int number=epoll wait (epollfd,events,MAX EVENT NUMBER,-1); 
if (number=0) 

{ 

printf("epoll failure\n"); 

break; 

} 

for(int i=0;i<~number;i++) 

{ 
int sockfd=events[i].data.fd; 
if (sockfd==listenfd) 

{ 
struct sockaddr in client address; 

socklen t client addrlength=sizeof (client address); 
int connfd=accept (listenfd, (struct sockaddr*) 
&client address, &client addrlength); 

addfd (epollfd,connfd); 

} 
else if (sockfd==udpfdqd) 

{ 

char buf[UDP BUFFER SIZE]; 

memset (buf, '\0',UDP BUFFER SIZE); 

struct sockaddr in client address; 

socklen t client addrlength=sizeof (client address); 
ret=recvfrom(udpfd,buf,UDP BUFFER SIZE-1,0, 

(struct sockaddr*) &client address, &client addrlength); 
if (ret0) 

{ 

sendto (udpfdqd,buf,UDP BUFFER SIZE-1,0, 

(struct sockaddr*) &client address,client addrlength); 

} 

} 

























































































el 
由 
这 











































































































































































































































































































else if(levents[i] .events&EPOLLIN) 

{ 

char buf[TCP BUFFER SIZE]; 

while(1) 

{ 

memset (buf, '\0',TCP BUFFER SIZE); 
ret=recv (sockfd,buf,TCP BUFFER SIZE-1,0); 












































































































































if (ret<=0) 

{ 

if( (errno==EAGAIN) | | (errno==EWOULDBLOCK)) 
{ 

break; 

} 

close (sockfqd); 

break; 

} 

else if (ret==0) 

{ 

close (sockfd); 

} 

else 

{ 

send (sockfd,buf,ret,o0); 
} 

} 

} 

else 

{ 

printf ("something else happened\n"); 
} 

} 


} 
close (listenfd); 
return 0; 


} 
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9.8 超级 服务 xinetd 





Linux 因 特 网 服务 inetd 是 超级 服务 。 它 同时 管理 着 多 个 子 服 务 ， 即 
监听 多 个 端口 。 现 在 Linux 系 统 上 使 用 的 inetd 服 务 程序 通常 是 其 升级 版 
本 xinetd。xinetd 程 序 的 原理 与 inetd 相 同 ， 但 增加 了 一 些 控制 选项 ， 并 提 
高 了 安全 性 。 下 面 我 们 从 配置 文件 和 工作 流程 两 个 方面 对 xinetd 进 行 介 


绍 。 


9.8.1 xinetd 配 置 文件 





xinetd 采 用 /etc/xinetd.conf 主 配置 文件 和 /etc/xinetd.d 目 录 下 的 子 配置 
文件 来 管理 所 有 服务 。 主 配置 文件 包含 的 是 通用 选项 ， 这 些 选 项 将 被 所 
有 子 配置 文件 继承 。 不 过 子 配置 文件 可 以 覆盖 这 些 选 项 。 每 一 个 子 配置 
文件 用 于 设置 一 个 子 服务 的 参数 。 比 如 ，telnet 子 服务 的 配置 文 
件 /etc/xinetd.d/telnet 的 典型 内 容 如 下 : 








l#default:on 
2#description:The telnet server serves telnet sessions;it uses\ 
3#unencrypted username/password pairs for authentication. 

4 service telnet 

5{ 
6 flags=REUSE 
7 socket type=stream 
8 wait=no 

9 user=root 
10 server=/usr/sbin/in.telnetd 
11 log on failure+=USERID 

































































L133 





12 disable=no 





/etc/xinetd. d/telnet 文 件 中 的 每 一 项 的 含义 如 表 9-3 所 示 。 


表 9-3 /etc/xinetd.d/telnet 文件 的 项 目 及 其 含义 











项 目 含 区 
service 服务 名 
设置 连接 的 标志 。REUSE 表示 复 用 telnet 连接 的 socket。 该 标志 已 经 过 时 ， 每 个 连接 都 默认 
flags a 
启用 REUSE 标志 
socket type 服务 类 型 


wait 


服务 采用 单线 程 方 式 (wait=yes) 还 是 多 线程 方式 (wait=no)。 单 线程 方式 表示 xinetd 只 
accept 第 一 次 连接 ， 此 后 将 由 子 服务 进程 来 accept 新 连接 。 多 线程 方式 表示 xinetd 一 直人 负责 
accept 连接 ， 而 子 服务 进程 仅 处 理 连 接 socket 上 的 数据 读 写 





user 
server 
log _on failure 


disable 





子 服务 进程 将 以 user 指定 的 用 户 身 份 运行 


子 服务 程序 的 完整 路 径 
定义 当 服 务 不 能 启动 时 输出 日 志 的 参数 
是 否 启动 该 子 服务 


xinetd 配 置 文 件 的 内 容 相当 丰富 ， 远 不 止 上 面 这 些 。 读 者 可 参考 其 
man 文 档 来 获得 更 多 信息 。 


9.8.2 ”xinetd 工 作 流 程 


xinetd 管 理 的 子 服 务 中 有 的 是 标准 服务 ， 比 如 时 间 日 期 服务 
daytime、 回 射 服 务 echo 和 丢弃 服务 discard。xinetd 服 务 器 在 内 部 直接 处 
理 这 些 服 务 。 还 有 的 子 服 务 则 需要 调用 外 部 的 服务 器 程序 来 处 理 。 
Xinetd 通 过 调用 fork 和 exec 函 数 来 加 载运 行 这些 服 务 嚣 程序。 比如 
telnet、ftp 服 务 都 是 这 种 类 型 的 子 服 务 。 我 们 仍 以 telnet 服 务 为 例 来 探讨 
xinetd 的 工作 流程 。 


首先 ， 查 看 xinetd 守 护 进 程 的 PID (下 面 的 操作 都 在 测试 机 器 
Kongming20 上 执行 ) : 





$cat/var/run/xinetd.pid 
9543 





然后 开局 两 个 终端 并 分 别 使 用 如 下 命令 telnet 到 本 机 : 





Stelnet 192.168.1.109 








接 下 来 使 用 ps 命令 查看 与 进程 9543 相 关 的 进程 : 





$Sps-eo pid,ppid,pgid,sid,comm|lgrep 9543 
PID PPID PGID SESS COMMAND 

9543 1 9543 9543 xinetd 

9810 9543 9810 9810 in.telnetdqd 

10355 9543 10355 10355 in.telnetd 



































由 此 可 见 ， 我 们 每 次 使 用 telnet 登 录 到 xinetd 服 务 ， 它 都 创建 一 个 子 
进程 来 为 该 telnet 客 户 服 务 。 子 进程 运行 in.telnetd 程 序 ， 这 是 
在 /etc/xinetd.d/telnet 配 置 文件 中 定义 的 。 每 个 子 进程 都 处 于 自己 独立 的 
进程 组 和 会 话 中 。 我 们 可 以 使 用 lsof 命 令 ( 见 第 17 章 ) 进一步 查看 子 进 
程 都 打开 了 哪些 文件 描述 符 





$sudo lsof-p 9810# 以 子 进程 9810 为 例 

in.telnet 9810 root Ou IPVv 8189 0t0 TCP Kongming20:telnet-> 
Kongming20:38763 (ESTABLISHED) 

in.telnet 9810 root lu IPV 8189 0t0 TCP Kongming20:telnet-> 
Kongming20.:38763 (ESTABLISHED) 

in.telnet 9810 root 2u IPyv 8189 0t0 TCP Kongming20:telnet-> 




















































































































Kongming20:38763 (ESTABLISHED) 




















这 里 省 略 了 一 些 无 关 的 输出 。 通 过 ]sof 的 输出 我 们 知道 ， 子 进程 
9810 关 闭 了 其 标准 输入 、 标 准 输 出 和 标准 错误 ， 而 将 socket 文 件 描述 符 
dup 到 它们 上 面 。 因 此 ，telnet 服 务 器 程序 将 网 络 连接 上 的 输入 当 作 标准 
输入 ， 并 把 标准 输出 定向 到 同一 个 网 络 连接 上 。 


再 进一步 ， 对 xinetd 进 程 使 用 lsof 命 令 





$sudo lsof-p 9543 
xinetd 9543 root 5u IPVv6 47265 0t0 TCP*:telnet (LISTEN) 























一 条 输出 说 明 xinetd 将 一 直 监 听 telnet 连 接 请 求 ， 因 此 in.telnetd 子 
进程 只 处 理 连接 socket， 而 不 处 理 监 昕 socket。 这 是 子 配置 文件 中 的 wait 
参数 所 定义 的 行为 。 


对 于 内 部 标准 服务 ，xinetd 的 处 理 流程 也 可 以 用 上 述 方 法 来 分 析 ， 
这 里 不 再 更 述 


综合 上 面 讨 论 的 ， 我 们 将 xinetd 的 工作 流程 (wait 选 项 的 值 是 no 的 
情况 ) 绘制 为 图 9-1 所 示 的 形式 。 










对 于 /etc/xinetd.d 目 录 下 


的 每 个 被 使 能 的 服务 ， 分 
别 创建 一 个 socket 并 绑 定 


listen() 到 特定 端口 
(如 果 是 TCP 服 务 ) 


accept() 
(如 果 是 TCP 服 务 ) 


ee 








关闭 accept 返 回 的 关闭 文件 描述 符 
socket (如 果 是 TCP 0、1 和 2 
服务 ) bs 
外 部 服务 标准 服务 
将 stocket dup 到 文 
件 描述 符 0、1 和 2 上 ， 服务 函数 
然后 关闭 socket 
setgid() 
setuid() 
setsid() 


exec() 
调用 子 服务 程序 


图 9-1 xinetd 的 工作 流程 


信号 是 由 用 户 、 系 统 或 者 进程 发 送 给 目标 进程 的 信息 ， 以 通知 目标 


进程 某 个 状态 的 改变 或 系统 异常 。Linux 信 号 可 由 如 下 条 件 产生 : 


由 


口 对 于 前 台 进 程 ， 用 户 可 以 通过 输入 特殊 的 终端 字符 来 给 它 发 送信 


。 比 如 输入 Ctrl+C 通 常会 给 进程 发 送 一 个 中 断 信号。 


口 系统 异常 。 比 如 浮 点 异常 和 非法 内 存 段 访问 。 


口 系统 状态 变化 。 比 如 alarm 定 时 器 到 期 将 引起 SIGALRM 信 和 号 。 


口 运 行 kill 命 令 或 调用 kill 函数 。 


服务 器 程序 必须 处 理 《〈 或 至 少 忽略 ) 一 些 常 见 的 信号 ， 以 免 开 御 终 


本 章 先 讨论 如 何在 程序 中 发 送信 号 和 处 理 信号 ， 然 后 讨论 Linux 文 


持 的 信号 种 类 ， 并 详细 探讨 其 中 和 网 络 编程 密切 相关 的 几 个 。 


10.1 _ Linux 信号 概述 


10.41 发 送信 号 


Linux 下 ， 一 个 进程 给 其 他 进程 发 送信 号 的 API 是 ki 函数 。 其 定义 
如 下 : 





#include=sys/types.h> 
#include=signal.h> 
int kill (pid t pid,int sig); 














该 函数 把 信号 sig 发 送 给 目标 进程 ， 目 标 进程 由 pid 参 数 指定 ， 其 可 
能 的 取 值 及 含义 如 表 10-1 所 示 。 


表 10-1 kill 函数 的 pid 参数 及 其 含义 





pid 参数 含 4 

pid>0 信号 发 送 给 PID 为 pid 的 进程 

pid=0 信号 发 送 给 本 进程 组 内 的 其 他 进程 

pid= -1 信号 发 送 给 除 init 进程 外 的 所 有 进程 ， 但 发 送 者 需要 拥有 对 目标 进程 发 送信 号 的 权限 
pid< -1 信和 号 发 送 给 组 ID 为 -pid 的 进程 组 中 的 所 有 成 员 


Linux 定 义 的 信号 值 都 大 于 0， 如 果 sig 取 值 为 0， 则 kill 函 数 不 发 送 任 
何 信 号 。 但 将 sig 设 置 为 0 可 以 用 来 检测 目标 进程 或 进程 组 是 否 存 在 ， 
为 检查 工作 总 是 在 信号 发 送 之 前 就 执行 。 不 过 这 种 检测 方式 是 不 可 靠 
的 。 一 方面 由 于 进程 PID 的 回 绕 ， 可 能 导致 被 检测 的 PID 不 是 我 们 期 望 
的 进程 的 PID; 男 一 方面 ， 这 种 检测 方法 不 是 原子 操作 。 








该 函数 成 功 时 返回 0， 失 败 则 返回 -1 并 设置 errno。 几 种 可 能 的 ermo 
如 表 10-2 所 示 。 


表 10-2 kill 出 错 的 情况 


errno 合 多 

EINVAL 无 效 的 信号 

EPERM 该 进程 没有 权限 发 送信 号 给 任何 一 个 目标 进程 
ESRCH 目标 进程 或 进程 组 不 存在 





10.1.2 ”信号 处 理 方式 


目标 进程 在 收 到 信号 时 ， 需 要 定义 一 个 接收 函数 来 处 理 之 。 信 和 号 处 
理 函 数 的 原型 如 下 : 





#include=signal.h> 
typedef void(* sighandler 七 ) (int); 








NS 





信号 处 理 函 数 只 带 有 一 个 整 型 参数 ， 该 参数 用 来 指示 信和 号 类 型 。 信 
号 处 理 函 数 应 该 是 可 重 入 的 ， 人 否则 很 容易 引发 一 些 竞 态 条 件 。 所 以 在 信 
号 处 理 函 数 中 严禁 调用 一 些 不 安全 的 函数 。 





除了 用 户 自 定义 信号 处 理 函 数 外 ，bits/signum.h 头 文件 中 还 定义 了 
言 写 的 两 种 其 他 处 理 方式 一 一 SIG_IGN 和 SIG_DEL: 





#include<bits/signum.h> 
#define SIG DFL(( sighandler t)0) 
#define SIG IGN(( sighandler t)1) 
































SIG_IGN 表 示 忽 略 目 标 信号 ，SIG_DFL 表 示 使 用 信号 的 默认 处 理 方 
式 。 信 和 号 的 默认 处 理 方式 有 如 下 几 种 : 结束 进程 (Term) 、 忽 略 信 号 





(Ign) 、 结 束 进 程 并 生成 核心 转 储 文件 《Core) 、 和 暂 俘 进程 (Stop) ， 
以 及 继续 进程 (Cont) 。 


10.1.3” ”Linux 信 号 


Linux 的 可 用 信号 都 定义 在 bits/signum.h 头 文件 中 ， 其 中 包括 标准 信 
号 和 POSIX 实 时 信号 。 本 书 仅 讨 论 标准 信号 ， 如 表 10-3 所 示 。 


表 10-3 ”Linux 标准 信号 


信 起 源 将 必 
SIGHUP POSIX Term 控制 终端 挂 起 
SIGINT 键盘 输入 以 中 断 进程 (Ctrl+C) 
SIGQUIT POSIX Core 键盘 输入 使 进程 退出 〈Ctrl+\) 
SIGILL 非法 指令 
SIGTRAP POSIX Core 断 点 陷阱 ， 用 于 调试 
SIGABRT 进程 调用 abort 函数 时 生成 该 信号 
SIGIOT 4.2 BSD Core 和 SIGABRT 相同 
SIGBUS 总 线 错 误 ， 错 误 内 存 访问 


由 














下 i 人 

SIGKILL 加 和 个 进程 。 该 信号 不 可 被 捕获 或 者 忽略 
SIGUSRI | POSIX | Tem | 用 户 自 定义 信号 之 一 

SIGSEGV 非法 内 存 段 引 用 

SIGUSR2 用 户 自 定义 信号 之 二 

SIGPIPE | POSIX “| Tem | 往 读 端 被 关闭 的 管道 或 者 socket 连接 中 写 数据 
SIGALRM | POSIX | Tem | 由 alarm 或 setitimer 设 置 的 实时 间 钟 超时 引起 
SIGTERM | ANSI ”| Tem | 终止 进程 kill 命令 默认 发 送 的 信号 就 是 SIGTERM 
SIGSTKFLT | Linux ”| Tem | 时 期 的 Linux 使 用 该 信号 来 报告 数学 协 处 理 器 栈 错误 
SIGCLD | SystemV | Ign | 和 SIGCHLD 相同 

SIGCHLD | POSIX | 加。 | 子 进 程 状态 发 生变 化 (退出 或 者 暂停 ) 


Ee EL ee CCtrlHQ)。 如 果 目 标 进程 未 处 于 暂停 状 
SIGSTOP Stop 暂停 进程 《Ctrl+S)。 该 信号 不 可 被 捕获 或 者 忽略 
SIGTSTP 挂 起 进程 (Ctrl+Z) 

SIGTTIN 后 台 进 程 试图 从 终端 读 取 输入 

SIGTTOU | POSIX | stop | 后 台 进 程 试图 往 终端 输出 内 容 

SIGURG “| 42BSD | Ign | socket 连接 上 接收 到 紧急 数据 

SIGXCPU 进程 的 CPU 使 用 时 间 超 过 其 软 限制 

SIGXFSZ 文件 尺寸 超过 其 软 限制 


了 S 内 乡 本 艺 
ei em | | SM 不 过 它 只 统计 本 进程 用 户 空间 代码 的 


SIGPROF 与 SIGALRM 类 似 ， 它 同时 统计 用 户 代 码 和 内 核 的 运行 时 间 
SIGWINCH 一 终端 窗口 大 小 发 生变 化 


IO 就 绪 ， 比 如 socket 上 发 生 可 读 、 可 写 事件 。 因 为 TCP 

Ce 4 my 服务 咒 可 触发 SIGIO 的 条 件 很 多 ， 故 而 SIGIO 无 法 在 TCP 
ee 服务 器 中 使 用 。SIGIO 信号 可 用 在 UDP 服务 器 中 ， 不 过 也 非 
对 于 使 用 UPS (Uninterruptable Power Supply) 的 系统 ， 当 


TT ro 
SIGUNUSED | | Core | 保留 ， 通常 和 SIGSYS 效果 相同 








我 们 并 不 需要 在 代码 中 处 理 所 有 这 些 信号 。 本 章 后 面 将 重点 介绍 与 
网 络 编程 关系 紧密 的 几 个 信号 : SIGHUP、SIGPIPE 和 SIGURG。 后 续 章 


节 还 将 介绍 SIGALRM、SIGCHLD 等 信号 的 使 用 。 


10.1.4 中断 系 统 调用 





如 果 程 序 在 执行 处 于 阻塞 状态 的 系统 调用 时 接收 到 信号 ， 并 且 我 们 
为 该 信号 设置 了 信号 处 理 函 数 ， 则 默认 情况 下 系统 调用 将 被 中 断 ， 并 且 
errmo 被 设置 为 EINTR。 我 们 可 以 使 用 sigaction 函 数 〈 见 后 文 ) 为 信号 设 
置 SA_RESTART 标 志 以 上 自动 重 局 被 该 信号 中 断 的 系统 调用 。 











对 于 默认 行为 是 暂停 进程 的 信号 〈 比 如 SIGSTOP、SIGTTIN) ， 如 
果 我 们 没有 为 它们 设置 信号 处 理 函 数 ， 则 它们 也 可 以 中 断 某 些 系统 调用 
(比如 connect、epoll_wait) 。POSIX 没 有 规定 这 种 行为 ， 这 是 Linux 独 
有 的 。 


10.2 ”信号 函数 


10.2.1 _ signal 系统 调用 


要 为 一 个 信号 设置 处 理 函 数 ， 可 以 使 用 下 面 的 Signal 系 统 调 用 : 





#include=signal.h> 
_sighandler t signal(int sig, sighandler t handler) 








sig 参 数 指出 要 捕获 的 信号 类 型 。_handler 参 数 是 _sighandler_t 类 型 的 
函数 指针 ， 用 于 指定 信号 sig 的 处 理 函 数 。 


signal 函 数 成 功 时 返回 一 个 函数 指针 ， 该 函数 指针 的 类 型 也 是 
_Ssighandler t。 这 个 返回 值 是 前 一 次 调用 signal 函 数 时 传 入 的 函数 指针 ， 
或 者 是 信号 sig 对 应 的 默认 处 理 函 数 指针 SIG_DEF〈 如 果 是 第 一 次 调用 
signal 的 话 ) 。 





signal 系 统 调用 出 错时 返回 SIG_ERR， 并 设置 errno。 


10.2.2 sigaction 系 统 调用 


设置 信号 处 理 函 数 的 更 健壮 的 接口 是 如 下 的 系统 调用 : 





#include=signal.h> 


int sigaction(int sig,const struct sigaction*act,struct 
sigaction*oact); 








sig 参 数 指出 要 捕获 的 信号 类 型 ，act 参 数 指定 新 的 信号 处 理 方式 ， 
oact 参 数 则 输出 信号 先前 的 处 理 方 式 〈《 如 采 不 为 NULL 的 话 ) 。act 和 oact 
都 是 sigaction 结 构 体 类 型 的 指针 ，sigaction 结 构 体 描述 了 信和 号 处 理 的 细 
节 ， 其 定义 如 下 : 





struct sigaction 
{ 
#ifdef USE POSIX199309 
union 

{ 

_sighandler t sa handler; 

void(*sa sigaction) (int,siginfo t*,void*); 

} 

_sigaction handler; 

i#define sa handler sigaction handler.sa handler 
#define sa sigaction sigaction handler.sa sigaction 
#else 

_sighandler t sa handler; 

#endif 
_Sigset t sa mask; 

int sa flags; 

void(*sa restorer) (void); 


2 


















































该 结构 体 中 的 sa_hander 成 员 指 定 信号 处 理 函 数 。sa_mask 成 员 设 置 
进程 的 信号 掩 码 (确切 地 说 是 在 进程 原 有 信号 掩 码 的 基础 上 增加 信号 掩 
码 ) ， 以 指定 哪些 信号 不 能 发 送 给 本 进程 。sa_mask 是 信号 集 
sigset_t (_sigset_t 的 同义词 类 型 ， 该 类 型 指定 一 组 信号 。 关 于 信号 
集 ， 我 们 将 在 后 面 介绍 。sa_flags 成 员 用 于 设置 程序 收 到 信号 时 的 行 
为 ， 其 可 选 值 如 表 10-4 所 示 。 











表 10-4 sa_flags 选项 
选 项 含 义 
如 果 sigaction 的 sig 参数 是 SIGCHLD， 则 设置 该 标志 表示 子 进程 暂停 时 不 生成 
SIGCHLD 信和 号 
SA_NOCLDWAIT 如 果 sigaction 的 sig 参数 是 SIGCHLD， 则 设置 该 标志 表示 子 进 程 结 :僵尸 进程 
使 用 sa_sigaction 作为 信号 处 理 函 数 〈 而 不 是 默认 的 sa_handler)， 它 给 进程 提供 更 多 相关 


SA_NOCLDSTOP 


SA_SIGINFO 











的 信息 
SA_ONSTACK 调用 由 sigaltstack 函数 设置 的 可 选 信号 栈 上 的 信号 处 理 函 数 
SA_RESTART 重新 调用 被 该 信号 终止 的 系统 调用 
a 当 接收 到 信和 号 并 进入 其 信号 处 理 函数 时 ， 不 屏蔽 该 信和 号。 默认 情况 下 ， 我 们 期 望 进程 在 
处 理 一 个 信号 时 不 再 接收 到 同 种 信号 ， 和 否则 将 引起 一 些 竞 态 条 件 
SA_RESETHAND | 信号 处 理 函 数 执行 完 以 后 ， 恢 复 信 号 的 默认 处 理 方式 
SA_INTERRUPT 中 断 系 统 调 用 
SA_NOMASK 同 SA_NODEFER 
SA_ONESHOT 同 SA_RESETHAND 
SA_STACK 同 SA_ONSTACK 


sa_restorer 成 员 已 经 过 时 ， 最 好 不 要 使 用 。sigaction 成 功 时 返回 0， 
失败 则 返回 -1 并 设置 errno。 


10.3 ”信号 集 


10.3.1 ”信号 集 函 数 





前 文 提 到 ，Linux 使 用 数据 结构 sigset_t 来 表示 一 组 信号 。 其 定义 如 
下 





#include<bits/sigset.h> 

#define SIGSET NWORDS (1024/ (8*sizeof (unsigned long int))) 
typedef struct 

{ 

unsigned long int vall[l SIGSET NWORDS]; 


} sigset t; 






































由 该 定义 可 见 ，sigset_t 实 际 上 是 一 个 长 整 型 数组 ， 数 组 的 每 个 元 素 
的 每 个 位 表示 一 个 信号 。 这 种 定义 方式 和 文件 描述 符 集 fd_set 类 似 。 
Linux 提 供 了 如 下 一 组 函数 来 设置 、 修 改 、 删 除 和 查询 信号 集 : 











#include=signal.h> 
int sigemptyset (sigset t* set)/* 清 空 信号 集 */ 

int sigfillset (sigset tx set)/* 在 信号 集中 设置 所 有 信和 号 */ 

int sigaddset (sigset tx set,int signo)V/x* 将 信号 signo 添 加 至 信号 集中 */ 
int sigdelset (sigset tx set,int signo)/* 将 信号 _signo 从 信号 集中 删除 */ 
int sigismember( const sigset t* set,int signo)/* 测 试 _ signo 是 否 在 信 


号 集中 */ 







































































10.3.2 ”进程 信号 掩 码 


前 文 提 到 ， 我 们 可 以 利用 sigaction 结 构 体 的 sa_mask 成 员 来 设置 进程 
的 信号 掩 码 。 此 外 ， 如 下 函数 也 可 以 用 于 设置 或 得 看 进程 的 信号 掩 码 : 








#include=signal.h> 
int sigprocmask (int how, const sigset t* set,sigset tx oset); 





_set 参 数 指定 新 的 信号 掩 码 ，_oset 参 数 则 输出 原来 的 信号 掩 码 (如 
果 不 为 NULL 的 话 ) 。 如 果 _set 参 数 不 为 NULL， 则 _how 参 数 指定 设置 进 
程 信号 掩 码 的 方式 ， 其 可 选 值 如 表 10-5 所 示 。 


表 10-5 _how 参数 











_how 参数 含 义 
SIG BLOCK 新 的 进程 信号 掩 码 是 其 当前 值 和 _set 指定 信号 集 的 并 集 
SIG UNBLOCK 新 的 进程 信号 掩 码 是 其 当前 值 和 一 _set 信号 集 的 交集 ， 因 此 _set 指定 的 信号 集 将 不 被 屏蔽 
SIG SETMASK 直接 将 进程 信号 掩 码 设置 为 _set 

















如 果 _set 为 NULL， 则 进程 信号 掩 码 不 变 ， 此 时 我 们 仍然 可 以 利用 
_0set 参 数 来 获得 进程 当前 的 信号 掩 码 。 


sigprocmask 成 功 时 返回 909， 失败 则 返回 -1 并 设置 errno。 


10.3.3 ”被 挂 起 的 信号 


设置 进程 信号 掩 码 后 ， 和 被 屏蔽 的 信号 将 不 能 被 进程 接收 。 如 果 给 进 
程 发 送 一 个 被 屏蔽 的 信号 ， 则 操作 系统 将 该 信号 设置 为 进程 的 一 个 被 挂 
起 的 信号 。 如 果 我 们 取消 对 被 挂 起 信号 的 屏蔽 ， 则 它 能 立即 被 进程 接收 








到 。 如 下 函数 可 以 获得 进程 当前 被 挂 起 的 信号 集 : 


#include=signal.h> 

int sigpending(sigset t*set); 

set 参 数 用 于 保存 被 挂 起 的 信号 集 。 显 然 ， 进 程 即使 多 次 接收 到 同一 
个 被 挂 起 的 信号 ，sigpending 函 数 也 只 能 反映 一 次 。 并 且 ， 当 我 们 再 次 
使 用 sigprocmask 使 能 该 挂 起 的 信号 时 ， 该 信号 的 处 理 函 数 也 只 被 触发 一 


次 。 


sigpending 成 功 时 返回 0， 失 败 时 返回 -1 并 设置 errno。 





关于 信号 和 信和 号 集 ，Linux 还 提供 了 很 多 有 用 的 API， 这 里 融 不 一 一 
介绍 了 。 需 要 提醒 读者 的 是 ， 要 始终 清楚 地 知道 进程 在 每 个 运行 时 刻 的 
证 写 描 码 ， 以 及 如 何 适 当地 处 理 捕获 到 的 信和 与。 在 多 进程 、 多 线程 环境 
中 ， 我 们 要 以 进程 、 线 程 为 单位 来 处 理 信号 和 信号 掩 码 。 我 们 不 能 设想 
新 创建 的 进程 、 线 程 具有 和 父 进 程 、 主 线程 完全 相同 的 信号 特征 。 比 
如 ，fork 调 用 产生 的 子 进程 将 继承 父 进程 的 信号 掩 码 ， 但 具有 一 个 空 的 
挂 起 信号 集 。 




















10.4 统一 事件 源 


信号 是 一 种 寞 步 事 件 : 信号 处 理 函 数 和 程序 的 主人 循环 是 两 条 不 同 的 
执行 路 线 。 很 显然 ， 信 号 处 理 函 数 需 要 尺 可 能 快 地 执行 完毕 ， 以 确保 该 
信号 不 被 屏 珊 《前 面 提 到 过 ， 为 了 避免 一 些 竞 态 条 件 ， 信 和 号 在 处 理 期 
间 ， 系 统 不 会 再 次 触发 它 ) 太 久 。 一 种 典型 的 解雇 方案 是 : 把 信号 的 主 
要 处 理 届 辑 放 到 程序 的 主 循 环 中 ， 当 信和 号 处 理 函 数 被 甬 发 时 ， 它 只 是 简 
单 地 通知 主 循环 程序 接收 到 信号 ， 并 把 信号 值 传递 给 主 循环 ， 主 循环 再 
根据 接收 到 的 信号 值 执行 目标 信号 对 应 的 逻辑 代码 。 信 号 处 理 函 数 通常 
使 用 管道 来 将 信号 “传递 ”给 主 循环 : 信 与 处理 函 数 往 管道 的 写 端 写 入 信 
号 值 ， 主 循环 则 从 管道 的 读 端 读 出 该 信号 值 。 那 么 主 循环 怎么 知道 管道 
上 何 时 有 数据 可 读 呢 ?这 很 简单 ， 我 们 只 需要 使 用 LO 复 用 系统 调用 来 监 
听 管 道 的 读 端 文件 搬 述 符 上 的 可 读 事 件 。 如 此 一 来 ， 信 和 写 事件 束 能 和 其 
他 IO 事件 一 样 被 处 理 ， 即 统一 事件 源 。 


























很 多 优秀 的 MO 框架 库 和 后 台 服 务 器 程序 都 统一 处 理 信 号 和 IO 事 
件 ， 比 如 Libevent 1/O 框 架 库 和 xinetd 超 级 服务 。 代 码 清单 10-1 给 出 了 统 
一 事件 源 的 一 个 简单 实现 。 


代码 清单 10-1 统一 事件 源 


#include=<=sys/types.h> 
#include=<=sys/socket.nh> 





#include<netinet/in.h> 
#include=arpa/inet.h> 
#include=<assert.n> 
#include=stdio.h> 
#include=signal.h> 
#include=<=unistd.n> 
#include=<=errno.h> 
#include=string.h> 
#include=<fcntl.h> 
#include=stdlib.nhn> 
#include=sys/epoll.n> 
#include<=<=pthread.h> 

#define MAX EVENT NUMBER 1024 
Static Tt pipetdl2l 
int setnonblocking (int fqd) 



























































old option=fcntl (fd,F GETFL); 

new option=old option|O NONBLOCK; 
cntl (fd,F SETFL,nNnew option); 

return old option; 



























































void addfd(int epollfd,int fd) 
{ 
epoll event event; 

event .data.fd=fd; 

vent .events=EPOLLIN|EPOLLET; 

epoll ctl (epollfd,EPOLL CTL ADD, fd, &event); 
setnonblocking (fd); 
















































































} 
/* 信 号 处 理 函 数 */ 


void sig handler (int sig) 





l 

/* 保 留 原来 的 errno， 在 函数 最 后 恢复 ， 以 保证 函数 的 可 重 入 性 */ 
lint Save errno=~errno; 

int msg=sig; 

send (pipefd[1], (char*) &msg,1,0);/* 将 信号 值 写 入 
EHO=SAV 本 rrno; 

















融 


道 ， 以 通知 主 循环 */ 


























} 

/* 设 置信 号 的 处 理 函 数 */ 

void addsig(int sig) 

{ 

struct sigaction sa; 

memset (&sa,'\0',sizeof (sa)); 
sa.sa handler=sig handler; 
sa.sa flags|=SA RESTART; 
sigfillset (&sa.sa mask); 
assert (sigaction (sig,&sa,NULL) !=-1); 
} 


























int main(int argc,char*argv|[]) 

{ 

if (argc==2) 

{ 

printf("usage:%s ip address port number\n",basename (argv{[0])); 
return 1; 

} 

const char*ip=argv[1]; 

int port=atoi (argv[21); 

int ret=0; 

struct sockaddr in address; 

bzero (&address,sizeof (address)); 

address.sin family=AF INET; 

inet pton (AF INET,ip,&address.sin addr); 

address.sin port=htons (port); 

int listenfd=socket (PF INET,SOCK STREAM,0); 

assert (listenfd>>=0);} 

ret=bind (listenfd, (struct sockaddr*) &address,sizeof (address)); 
if (ret==-1) 
{ 
printf ("errno is%d\n",errno); 
return 1; 


} 












































































































































ret=listen (listenfd,5); 
assert (ret!=-1);) 
epoll event events [MAX EVENT NUMBER]; 


int epollfd=epoll] create(5); 

assert (epollfd!=-1);} 

addfqd (epollfd,1listenfd); 

/* 使 用 socketpair 创 建 管道 ， 注 册 pipefqd[0] 上 的 可 读 事件 */ 
ret=socketpair (PF UNIX,SOCK STREAM,0,pipefd); 
assert (ret!=-1);) 
setnonblocking (pipefd[1]); 
addfd(epollfd,pipefd[0]); 
/* 设 置 一 些 信号 的 处 理 函 数 */ 
addsig (SIGHUP);) 
addsig (SIGCHLD); 
addsig (SIGTERM)，; 

addsig (SIGINT); 

bool stop server=false; 

whilel(!stop server) 

{ 

int number=epoll] wait (epollfd,events,MAX EVENT NUMBER,-1); 
if((number<0)&&(errnol=EINTR) ) 

{ 

printf("epoll failure\n"); 

break; 


} 
















































































































































































for (in 


{ 


int socki 
/* 如 果 就 绪 的 文件 描述 符 是 1isteni 


f(sock 





{ 


S 





truct 


socklen 
int connfd=accept(] 
client addrlength); 
fd(epollfd,connfd); 


&clien 
adqd 
} 





/* 如 果 就 绪 的 文件 描述 符 是 Pipe: 





else i 
{ 

in 
char si 


t i=0;i<number;it++) 








fd=events[i].data.fd; 
































fd==l1isten 





Fa 

















fdq， 则 处 理 新 的 连接 */ 





sockaddr in client address; 


t client addrlength=sizeo 








f(client address); 








istenfd, (struc 





t address,& 






































((sockfd==pipe 





t "SLg2? 


gnals[1024]; 








re 
if (ret 


{ 





t=recv (pipef 








d[0],signals,sizeo: 


t sockaddr*) 














fd[0] ， 则 处 理 信 号 */ 
Fdq[0]1) && (events[i] .events& 














EPOLL 





N)) 





(signals),0); 





1) 


continue; 


} 


else i 


{ 





(ret== 


) 


continue; 


} 
else 
{ 

/* 





因为 每 个 信号 值 占 1 字 节 ， 所 以 按 字 节 来 逐个 接收 信和 号。 我们 以 S 


如 何 安全 地 终止 服务 器 主 循环 */ 





for (int i=0;i<ret;++i) 





{ 
switch 
{ 
Case SJ] 
Case SJ] 


{ 


(signals[i]) 


[GCHLD: 
[GHUP: 





continue; 


} 





Case 5 


GTERM: 








Case 5 








G 





NT: 





{ 


stop server=true; 


} 


Ee ee | 





ERM 为 例 ， 来 说 明 





G 


-一 














Printf("close fds\n"); 
close(1Listenftdq) ， 
close (pipefd[1]); 
close (pipefd[0]); 
return 0; 


} 


| 

















10.5 ”网络 编 程 相 关 信 和 号 
本 节 中 我 们 详细 探讨 三 个 和 网 络 编程 密切 相关 的 信号 
10.5.1 SIGHUP 
当 挂 起 进程 的 控制 终端 时 ，SIGHUP 信 号 将 被 触发 。 对 于 没有 控制 


终端 的 网 络 后 台 程 序 而 言 ， 它 们 通常 利用 SIGHUP 信 号 来 强制 服务 器 重 
读 配置 文件 。 一 个 典型 的 例子 是 xinetd 超 级 服务 程序 。 





xinetd 程 序 在 接收 到 SIGHUP 信 号 之 后 将 调用 hard_reconfig 函 数 〈 见 
xinetd 源 码 ) ， 它 循环 读 取 /etc/xinetd.d/ 目 录 下 的 每 个 子 配置 文件 ， 并 检 
测 其 变化 。 如 果 某 个 正在 运行 的 子 服 务 的 配置 文件 被 修改 以 停止 服务 ， 
则 xinetd 主 进程 将 给 该 子 服务 进程 发 送 SIGTERM 信 号 以 结束 它 。 如 果 某 
个 子 服务 的 配置 文件 被 修改 以 开局 服务 ， 则 xinetd 将 创建 新 的 socket 并 将 
其 绑 定 到 该 服务 对 应 的 端口 上 。 下 面 我 们 简单 地 分 析 xinetd 处 理 SIGHUP 
信号 的 流程 。 





测试 机 器 Kongming20 上 具有 如 下 环境 : 








sps-eflgrep xinetd 

root 7438 1 0 11:32?00:00:00/usr/sbin/xinetd-stayalive- 
pidfile/var/run/xinetd.pid 

root 7442 7438 0 11:32?00:00:00 (xinetd service)echo-stream 
Kongming20 














$sudo lsof-p 7438 

xinetd 7438 root 3r FIFO 0,8 0t0 37639 pipe 

xinetd 7438 root 4w FIFO 0,8 0t0 37639 pipe 

xinetd 7438 root 5u IPVv6 37652 0t0 TCP*:echo (LISTEN) 






































从 ps 的 输出 来 看 ，xinetd 创 建 了 子 进程 442， 它 运行 echo-stream 内 
部 服务 。 从 lsof 的 输出 来 看 ，xinetd 打 开 了 一 个 管道 。 该 管道 的 读 端 文件 
描述 符 的 值 是 3， 写 端 文件 描述 符 的 值 是 4。 后 面 我 们 将 看 到 ， 它 们 的 作 
用 就 是 统一 事件 源 。 现 在 我 们 修改 /etc/xinetd.d/ 目 录 下 的 部 分 配置 文 
件 ， 并 给 xinetd 发 送 一 个 SIGHUP 信 号 。 具 体操 作 如 下 : 





$sudo sed-i's/disable.*=.*no/disable=yes/'/etc/xinetd.d/echo- 
stream# 停 止 echo 服 务 
$sudo sed-i's/disable.*=.*yes/disable=no/'/etc/xinetd.d/telnet# 开 
启 telnet 服 务 

$sudo strace-p 7438&>a.txt 

$sudo kill-HUP xinetd 























strace 命 令 〈 见 第 17 章 ) 能 跟踪 程序 执行 时 调用 的 系统 调用 和 接收 
到 的 信号 。 这 里 我 们 利用 strace 命 令 跟 踊 进 程 7438， 即 xinetd 服 务 嚣 程 
序 ， 以 观察 xinetd 是 如 何 处 理 SIGHUP 信 号 的 。 此 次 strace 命 令 的 部 分 输 
出 如 代码 清单 10-2 所 示 。 


代码 清单 10-2 ”用 strace 命 令 查 看 xinetd 处 理 SIGHUP 的 流程 








---{si signo=SIGHUP,si code=SI USER,si pid=7697,si uid=0, 
si value={int=1154706400,ptr=0x44d36be0}} (Hangup)--- 
write(4,"\1",1)=1 
sigreturn()=? (mask now[]) 
poll([{fd=5,events=POLLIN}, 

{fd=3,events=POLLIN}],2,-1)=1 ([{fd=3,revents=POLLIN}]) 
ioct1 (3, FIONREAD, [1])=0 





















































read (3,"™\1",1)=1 
stat64("/etc/xinetd.d/echo-stream", 
{st mode=S IFREG|0644,st size=1149,...})=0 
open("/etc/xinetd.d/echo-stream",O RDONLY)=8 
time (NULL)=1337053896 
send(7,"<=31>May 15 11:51:36 
xinetd[7438]"...,139,MSG NOSIGNAL)=139 
fstat64(8,1{st moqe=S IFREG|0644,st size=1149,...}) 
lseek(8,0,SEEK CUR)=0 
fcnt164(8, F_ GETFL) =0 (flags O RDONLY) 
read(8,"#This is the configuration for"...,8192)=1149 
read (8,"",8192)=0 
close (8)=0 
kill(7442,SIGTERM)=0 
Rs NULL, WNOHANG) =0 
socket (了 NET6, SOCK STREAM, BPROTO: TCP)SS 
8 F SETED, FD CLOEXEC)=0 
setsockopt (5, SOL IPV6,IPV6 V6ONLY, [0]1,4)=0 
4 























| 
OO 







































































































































































setsockopt (5, SOL SOCKET,SO REUSEADDR, [1],4)=0 

bind(5, 
{sa family=AF INET6,sin6 port=htons(23),inet pton(AF INET6,"::",& 
sin6 addr),sin6 flowinfo=0,sin6 scope id=0},28)=0 











listen(5,64)=0 





叶 


该 输出 分 为 4 个 部 分 ， 我 们 用 空 行 将 每 个 部 分 隅 开 。 





第 一 部 分 描述 程序 接收 到 SIGHUP 信 号 时 ， 信 和 号 处 理 函 数 使 用 管道 
通知 主 程序 该 信号 的 到 来 。 信 和 号 处 理 函 数 往 文件 描述 符 4《〈 管 道 的 写 
端 ) 写 入 信和 号 值 1 (SIGHUP 信 号 ) ， 而 主 程序 使 用 poll 检 测 到 文件 描述 
符 3《〈 管 道 的 读 端 ) 上 有 可 读 事 件 ， 就 将 管道 上 的 数据 读 入 。 








第 二 部 分 描述 了 xinetd 重 新 读 取 一 个 子 配置 文件 的 过 程 。 


第 三 部 分 描述 了 xinetd 给 子 进 程 echo-stream (PID 为 7442) 发 送 
SIGTERM 信 号 来 终止 该 子 进 程 ， 并 调用 waitpid 来 等 待 该 子 进程 


第 四 部 分 描述 了 xinetd 启 动 telnet 服 务 的 过 程 : 创建 一 个 流 服务 
socket 并 将 其 绑 定 到 端口 23 上 ， 然 后 监听 该 端口 。 


10.5.2 SIGPIPE 


默认 情况 下 ， 往 一 个 读 端 关闭 的 管道 或 socket 连 接 中 写 数据 将 引发 
SIGPIPE 信 号 。 我 们 需要 在 代码 中 捕获 并 处 理 该 信号 ， 或 者 至 少 忽略 
它 ， 因 为 程序 接收 到 SIGPIPE 信 和 号 的 默认 行为 是 结束 进程 ， 而 我 们 绝对 
不 希望 因为 错误 的 写 操作 而 导致 程序 退出 。 引 起 SIGPIPE 信 和 号 的 写 操作 
将 设置 errno 为 EBPIPE。 








第 5 章 提 到 ， 我 们 可 以 使 用 send 函 数 的 MSG_NOSIGNAL 标 志 来 禁止 
写 操作 触发 SIGPIPE 信 和 号。 在 这 种 情况 下 ， 我 们 应 该 使 用 send 函 数 反 馈 
的 errmo 值 来 判断 管道 或 者 socket 连 接 的 读 端 是 否 已 经 关闭 。 





此 外 ， 我 们 也 可 以 利用 1/O 复 用 系统 调用 来 检测 管道 和 socket 连 接 的 
读 端 是 否 已 经 关闭 。 以 pol 为 例 ， 当 管道 的 读 端 关闭 时 ， 写 端 文件 描述 
符 上 的 POLLHUP 事 件 将 被 触发 ， 当 socket 连 接 被 对 方 关闭 时 ，socket 上 
的 POLLRDHUP 事 件 将 被 触发 。 








10.5.3 SIGURG 


在 Linux 环 境 下 ， 内 核 通知 应 用 程序 带 外 数据 到 达 主 要 有 两 种 方 


法 : 一 种 是 第 9 章 介 绍 的 IO 复 用 技术 ，select 等 系统 调用 在 接收 到 带 外 数 
据 时 将 返回 ， 并 向 应 用 程序 报告 socket 上 的 异常 事件 ， 代 码 清单 9-1 给 出 
了 一 个 这 方面 的 例子 ， 男 外 一 种 方法 就 是 使 用 SIGURG 信 号 ， 如 代码 清 


单 10-3 所 


小 。 


代码 清单 10-3 用 SIGURG 检 测 带 外 数据 是 否 到 达 





#incl 
#incl 
#incl 
#incl 
#incl 
#incl 
#incl 
#incl 
#incl 
#incl 
#inc] 








ude=sys/socket.h> 
ude<=netinet/in.h> 


ude=arpa/inet. 


ude=assert.h> 
ude=stdio.h> 
ude=unistd.n> 
ude=stdlipb.n> 
ude=errno.h> 
ude=string.h> 
ude=signal.h> 
ude=fcntl.h> 











#de 


fine 














BUF SIZE 








static int connf 
/*SIGURG 信 号 的 处 理 
void sig urg (int 





ds 





























{ 


h> 


1024 


函数 */ 
sig) 


int save errno=errno; 































































































char buffer[BUF SIZE]; 

memset (buffer, '\0',BUF SIZE); 

int ret=recv (connfd,buffer,BUF SIZE-1,MSG OO 

printf ("got%d bytes of oob data'%Ss'\n",ret,b 
rrno=save errno; 


} 


void addsigl(int sig,void(*sig handler) (int)) 


struct 
memset 





t sigaction sa 


上 ( 





sa,'\0',sizeo 


r 


工人 


Sal) ) / 


sa.sa handler=sig handler; 


sa.sa 1 

















flags|=SA RESTART; 


sigfillset (&sa.sa mask); 
assert (sigaction (sig,&sa,NULL) !=-1); 





} 


Int main(int argc,char*argv[]) 











外 数据 */ 





{ 

if (argc 所 =2) 

{ 

printf("usage:%s ip address port number\n",basename (argv{[0])); 
return 1; 

} 
const char*ip=argv[1]; 

int port=atoi (argv[21); 

struct sockaddr in address; 

bzero (&address,sizeof (address)); 

address.sin family=AF INET; 

inet pton (AF INET,ip,&address.sin addr); 

address.sin Ne 

int sock=socket (PF INET,SOCK STREAM,0); 

assert (sock~>>=0);，} 

int ret=bind(sock, (struct sockaddr*) &address,sizeof (address)); 
















































































assert (ret!=-1);} 
ret=listen (sock, 5);} 
assert (ret!=-1);} 





struct sockaddr in client; 
socklen t client addrlength=sizeof (client); 
connfd=accept (sock, (struct sockaddr*) &client, 心 
client addrlength); 
if (connfd=0) 
{ 
printf ("errno is:%Sd\n",errno); 
} 
else 
{ 
addsig (SIGURG, sig urg); 
/* 使 用 SIGURG 信 号 之 前 ， 我 们 必须 设置 socket 的 答 主 进程 或 进程 组 */ 
fcntl (connfd,F SETOWN,getpid()); 
char Fer [BUF STLZE]> 
while (1) /* 循 环 接收 普通 数据 */ 
{ 
memset (buffer,'\0',BUF SIZE); 
ret=recv (connfd,buffer,BUF SIZE-1,0); 
if (ret<==0) 
{ 
break; 
} 


printf ("got%d bytes of normal data'%s'\n",ret,buf 






























































































































































close (connfdqd);} 





close (sock); 
return 0; 


} 





读者 不 妨 编译 并 运行 该 服务 器 程序 ， 然 后 使 用 代码 清单 5-6 所 描述 
的 客户 端 程序 来 往 该 服务 器 程序 发 送 数据 ， 以 观察 服务 器 是 如 何 同时 处 
理 普通 数据 和 带 外 数据 的 。 





至 此 ， 我 们 讨论 完了 TCP 带 外 数据 相关 的 所 有 知识 。 下 面 帮助 读者 
重新 梳理 一 下 。3.8 节 中 我 们 介绍 了 TCP 带 外 数据 的 基本 知识 ， 其 中 探讨 
了 TCP 模 块 是 如 何 发送 和 接收 带 外 数据 的 。5.8.1 小 节 揪 述 了 如 何在 应 用 
程序 中 使 用 带 MSG_OOB 标 志 的 send/recv 系 统 调用 来 发 送 /接收 带 外 数 
据 ， 并 给 出 了 相关 代码 。9.1.3 小 节 和 10.5.3 小 节 分 别 介绍 了 检测 带 外 数 
据 是 否 到 达 的 两 种 方法 : 1/O 复 用 系统 调用 报告 的 异常 事件 和 SIGURG 信 
号 。 但 应 用 程序 检测 到 带 外 数据 到 达 后 ， 我 们 还 需要 进一步 判断 带 外 数 
据 在 数据 流 中 的 具体 位 置 ， 才 能 够 准确 无 误 地 读 取 带 外 数据 。5.9 节 介 
绍 的 sockatmark 系 统 调用 就 是 专门 用 于 解决 这 个 问题 的 。 它 判断 一 个 
socket 是 否 处 于 带 外 标记 ， 即 该 socket 上 下 一 个 将 被 读 取 到 的 数据 是 否 是 
带 外 数据 。 
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网 络 程序 需要 处 理 的 第 三 类 事件 是 定时 事件 ， 比 如 定期 检测 一 个 客 
户 连接 的 活动 状态 。 服 务 需 程序 通 毅 管理 着 众多 定时 事件 ， 因 此 有 效 地 
组 织 这 些 定 时 事件 ， 使 之 能 在 预期 的 时 间 点 被 触发 且 不 影响 服务 器 的 主 
要 逻辑 ， 对 于 服务 器 的 性 能 有 着 至 关 重 要 的 影响 。 为 此 ， 我 们 要 将 每 个 
定时 事件 分 别 封装 成 定时 器 ， 并 使 用 茶 种 容器 类 数据 结构 ， 比 如 链表 、 
排序 链表 和 时 间 轮 ， 将 所 有 定时 右 串 联 起 来 ， 以 实现 对 定时 事件 的 统一 
管理 。 本 章 主 要 讨论 的 就 是 两 种 高 效 的 管理 定时 露 的 容 圳 : 时 间 轮 和 时 
间 堆 。 

















不 过 ， 在 讨论 如 何 组 织 定 时 器 之 前 ， 我 们 先 要 介绍 定时 的 方法 。 定 
时 是 指 在 一 段 时 间 之 后 触发 某 段 代码 的 机 制 ， 我 们 可 以 在 这 段 代 码 中 依 
次 处 理 所 有 到 期 的 定时 器 。 换 言 之 ， 定 时 机 制 是 定时 器 得 以 被 处 理 的 原 
动力 。Linux 提 供 了 三 种 定时 方法 ， 它 们 是 : 


口 socket 选 项 SO_RCVTIMEO 和 SO_SNDTIMEO 。 
口 SIGALRM 信 和 号。 


DVO 复 用 系统 调用 的 超时 参数 。 


11.1 socket 选 项 SO _RCVTIMEO 和 SO_SNDTIMEO 


第 5 章 中 我 们 介绍 过 socket 选 项 SO_RCVTIMEO 和 SO_SNDTIMEO， 
它们 分 别 用 来 设置 socket 接 收 数据 超时 时 间 和 发 送 数 据 超时 时 间 。 因 
此 ， 这 两 个 选项 仅 对 与 数据 接收 和 发 送 相关 的 socket 专 用 系统 调用 
Csocket 专 用 的 系统 调用 指 的 是 5.2 一 5.11 节 介绍 的 那些 socket API) 有 
效 ， 这 些 系统 调用 包括 send、sendmsg、recv、recvmsg、accept 和 





connect。 我 们 将 选项 SO_RCVTIMEO 和 SO _SNDTIMEO 对 这 些 系统 调用 
的 影响 总 结 于 表 11-1 中 。 


表 11-1 SO_RCVTIMEO 和 SO_SNDTIMEO 选项 的 作用 








系统 调用 有 效 选 项 系统 调用 超时 后 的 行为 

send SO_SNDTIMEO 返回 -1， 设 置 errno 为 EAGAIN 或 EWOULDBLOCK 
sendmsg SO_SNDTIMEO 返回 -1， 设 置 errno 为 EAGAIN 或 EWOULDBLOCK 
recv SO_RCVTIMEO 返回 -1， 设 置 errno 为 EAGAIN 或 EWOULDBLOCK 
recvmsg SO_RCVTIMEO 返回 -1， 设 置 errno 为 EAGAIN 或 EWOULDBLOCK 
accept SO_RCVTIMEO 返回 -1， 设 置 errno 为 EAGAIN 或 EWOULDBLOCK 
connect SO_SNDTIMEO 返回 -1， 设 置 errno 为 EINPROGRESS 











由 表 11-1 可 见 ， 在 程序 中 ， 我 们 可 以 根据 系统 调用 (send、 
sendmsg、recv、recvmsg、accept 和 和 connect)〉 的 返回 值 以 及 errno 来 判断 
超时 时 间 是 否 已 到 ， 进 而 决定 是 否 开始 处 理 定时 任务 。 代 码 清单 11-1 以 
connect 为 例 ， 说 明 程 序 中 如 何 使 用 SO_SNDTIMEO 选 项 来 定时 。 


代码 清单 11-1 设置 connect 超 时 时 间 





#include=<=sys/types.h> 


#includqe<sys/socket.h> 
#include<netinet/in.h> 
#include=<=arpa/inet.h> 
#include=stdlib.n> 
#include=<assert.n> 
#include=stdio.h> 
#include<=<=errno.h> 
#include=<fcntl.h> 
#include=<=unistd.n> 
#include=string.h> 
/* 超 时 连接 函数 */ 
int timeout connect (const char*ip,int port,int time) 
{ 
int ret=0; 
struct sockaddr in address; 
bzero (&address,sizeof (address)); 
address.sin family=AF INET; 
inet pton (AF INET,ip,&address.sin addr); 
address.sin port=htons (port); 
int sockfd=socket (PF INET,SOCK STREAM,0); 
assert (sockfd>>=0)， 
/* 通 过 选项 SO RCVTIMEO 和 sO SNDTIMEO 所 设置 的 超时 时 间 的 类 型 是 timeval， 这 和 
select 系 统 调用 的 超时 参数 类 型 相同 */ 
struct timeval timeout; 
timeout.tv sec=time; 
timeout.tv usec=0; 



























































































































































socklen t len=sizeof (timeout); 

ret=setsockopt (sockfd,SOL SOCKET,SO SNDT MEO, &timeout, len); 
assert (ret!=-1); 

ret=connect (sockfd, (struct sockaddr*) &address,sizeof (address)); 
if (ret==-1) 





























{ 
/* 超 时 对 应 的 错误 号 是 EINPROGRESS。 下 面 这 个 条 件 如 果 成 立 ， 我 们 就 可 以 处 理 定时 任 








工 














务 了 */ 
if (errno==EINPROGRESS) 
{ 
printf("connecting timeout,process timeout logic\n"); 
return-1; 
} 
printf("error occur when connecting to server\n"); 
区 会 蕊 这 基体 二 业 2 
} 


return sockfd; 















































int main(int argc,char*argv[]) 


f (argc==2) 





一 -一 





Printf("usage:gss ip address port number\n",basename (argv{[0])); 
return 1; 

} 

const char*ip=argv[1]; 

int port=atoi (argv[21); 

int sockfd=timeout connect (ip,port,10); 

if (sockfd=0) 




















return 1; 





return 0; 





[1] 本章 的 标题 叫 定时 器 ， 这 是 行业 内 常用 的 叫 法 。 实 际 上 ， 其 确切 的 
叫 法 是 定时 器 容器 。 二 者 常 混 谈 ， 本 书 也 没有 刻意 区 分 。 不 过 ， 从 本 章 
的 第 一 段 话 还 是 能 看 出 二 者 的 区 别 : 定时 器 容器 是 容器 类 数据 结构 ， 比 
如 时 间 轮 ; 定时 器 则 是 容器 内 容纳 的 一 个 个 对 象 ， 它 是 对 定时 事件 的 封 


J 廿 
让 oo 


11.2 ”SIGALRM 信 号 


第 10 章 提 到 ， 由 alarm 和 setitimer 函 数 设 置 的 实时 闸 钟 一 旦 超时 ， 将 
触发 SIGALRM 人 信号。 因此， 我 们 可 以 利用 该 信号 的 信号 处 理 函 数 来 处 
理 定 时 任务 。 但 是 ， 如 果 要 处 理 多 个 定时 任务 ， 我 们 就 需要 不 断 地 触发 
SIGALRM 信 号 ， 并 在 其 信号 处 理 函 数 中 执行 到 期 的 任务 。 一 般 而 言 ， 
SIGALRM 信 号 按照 固定 的 频 京 生成， 即 由 alarm 或 setitimer 函 数 设 置 的 
定时 周期 T 保 持 不 变 。 如 果 某 个 定时 任务 的 超时 时 间 不 是 T 的 整数 倍 ， 
那么 它 实 际 被 执行 的 时 间 和 预期 的 时 间 将 略 有 偏差 。 因 此 定时 周期 T 反 
映 了 定时 的 精度 。 





本 节 中 我 们 通过 一 个 实例 一 一 处 理 非 活动 连接 ， 来 介绍 如 何 使 用 
SIGALRM 信 号 定时 。 不 过 ， 我 们 需要 先 给 出 一 种 简 蛙 的 定时 器 实现 
一 一 基于 升序 链表 的 定时 器 ， 并 把 它 应 用 到 人 处理 非 活动 连接 这 个 实例 
中 。 这 样 ， 我 们 才能 观察 到 SIGALRM 信 号 处 理 函 数 是 如 何 处 理 定时 器 
并 执行 定时 任务 的 。 此 外 ， 我 们 介绍 这 种 定时 器 也 是 为 了 和 后 面 要 讨论 
的 高 效 定时 器 一 一 时 间 轮 和 时 间 堆 做 对 比 。 











11.2.1 基于 升序 链表 的 定时 鼎 


定时 上 莫 通 常 至 少 要 包含 两 个 成 员 : 一 个 超时 时 间 (相对 时 间或 者 绝 


对 时 间 〉 和 一 个 任务 回调 函数 。 有 的 时 候 还 可 能 包含 回调 函数 被 执行 时 
需要 传 入 的 参数 ， 以 及 是 否 重 启 定 时 器 等 信息 。 如 果 使 用 链表 作为 容器 
来 串联 所 有 的 定时 器 ， 则 每 个 定时 器 还 要 包含 指向 下 一 个 定时 器 的 指针 
成 员 。 进 一 步 ， 如 果 链 表 是 双 癌 的 ， 则 每 个 定时 需 还 需要 包含 指 同 前 一 
个 定时 器 的 指针 成 员 。 








代码 清单 11-2 实 现 了 一 个 简单 的 升序 定时 需 链 表 。 升 序 定时 器 链表 
将 其 中 的 定时 器 按照 超时 时 间 做 升序 排序 。 











#ifndef LST TIMER 
#define LST TIMER 
#include<time.n> 



































代码 清单 11-2 ”升序 定时 器 链表 








#define BUFFER SIZE 64 

class util timer;/* 前 问 声明 */ 
/x 用 户 数据 结构 : 客户 端 socket 地 址 、socket 文 件 描述 符 、 读 缓存 和 定时 器 */ 
struct client data 

{ 

sockaddr in address; 

int sockfd; 

char buf [BUFFER SIZE]; 

util] timer*timer; 

}; 

/* 定 时 器 类 */ 

class util timer 


{ 
























































public: 

util timer() :prev (NULL),next (NULL) {} 

public: 

time t expire;/* 任 务 的 超时 时 间 ， 这 里 使 用 绝对 时 间 */ 





void(*cb func) (client data*);/* 任 务 回调 函数 */ 
/* 回 调 函 数 处 理 的 客户 数据 ， 由 定时 器 的 执行 者 传递 给 回调 函数 */ 


client data*user data; 





















































util timerxprev;/x* 指 癌 前 一 个 定时 器 */ 

util timer*next;/* 指 癌 下 一 个 定时 器 */ 

}; 

/* 定 时 器 链表 。 它 是 一 个 升序 、 双 向 链表 ， 且 带 有 头 结 点 和 尾 节 点 */ 
class sort timer lst 

lL 

public: 

sort timer lst():head (NULL),tail (NULL){} 
/* 链 表 被 销毁 时 ， 删 除 其 中 所 有 的 定时 器 */ 

~sort timer lst() 

{ 

util timer*tmp=head; 

while (tmp) 

{ 

head=tmp-~>next; 

delete tmp; 

tmp=head; 

} 















































} 
/* 将 目标 定时 器 timer 添 加 到 链表 中 */ 
void add timer (util timer*timer) 


{ 








if(!timer) 
{ 

return; 

} 
if(!head) 





{ 
head=tail=timer; 
return; 








} 
/* 如 果 目 标定 时 器 的 超时 时 间 小 于 当前 链表 中 所 有 定时 器 的 超时 时 间 ， 则 把 该 定时 器 插入 








链表 头 部 ， 作 为 链表 新 的 头 节 点 。 人 否则 就 需要 调用 重 载 函 数 

adqd timer (util timer*timer,util timerxlst_ head)， 把 它 插入 链表 上 
置 ， 以 保证 链表 的 升序 特性 */ 
if (timer->expire<hnead-~>expire) 
{ 

timer-~next=head; 
head-~>prev=timer; 

head=timer; 

ECEUEN, 

} 

add timer (timer,head); 


} 















































合适 的 位 





/x* 当 某 个 定时 任务 发 生变 化 时 ， 调 整 对 应 的 定时 器 在 链表 中 的 位 置 。 这 个 函数 只 考虑 被 调 











整 的 定时 器 的 超时 时 间 延 长 的 情况 ， 即 该 定时 器 需要 往 链表 的 尾部 移动 x/ 
void adjust timer (util timer*timer) 


{ 














if(!timer) 

return; 

} 

util timer*tmp=timer-~>next; 

/* 如 果 被 调整 的 目标 定时 器 处 在 链表 尾部 ， 或 者 该 定时 器 新 的 超时 值 仍 然 小 于 其 下 一 个 定 
时 器 的 超时 值 ， 则 不 用 调整 */ 
if(!Itmp|| (timer->expire<tmp-~>expire)) 
{ 


return; 



































} 

/* 如 果 目 标定 时 器 是 链表 的 头 节 点 ， 则 将 该 定时 器 从 链表 中 取出 并 重新 插入 链表 */ 

If (timer==head) 

{ 

head=head-~>next; 

head-~>prev=NULL; 

timer-~>next=NULL; 

add timer (timer,head); 

} 

/* 如 果 目 标定 时 器 不 是 链表 的 头 节 点 ， 则 将 该 定时 器 从 链表 中 取出 ， 然 后 插入 其 原来 所 在 
位 置 之 后 的 部 分 链表 中 */ 

else 

{ 
timer->>prev-~>next=timer-~next; 
timer-~>next-~>prev=timer->prev; 
add timer (timer,timer-~>next); 


lL 
} 
/* 将 目标 定时 器 timer 从 链表 中 删除 */ 


void del timer (util timer*timer) 
{ 
if(!timer) 
{ 
return; 
} 
/* 下 面 这 个 条 件 成 立 表 示 链 表 中 只 有 一 个 定时 器 ， 即 目标 定时 器 */ 
if( (timer==head) && (timer==tail)) 
{ 
delete timer; 
head=NULL; 
tail=NULL; 
return; 
} 
/x* 如 果 链 表 中 至 少 有 两 个 定时 器 ， 且 目标 定时 器 是 链表 的 头 结 点 ， 则 将 链表 的 头 结 点 重 置 
为 原 头 节点 的 下 一 个 节点 ， 然 后 删除 目标 定时 器 */ 
if (timer==head) 
{ 
head=head-~next; 







































































head-~>prev=NULL; 
delete timer; 
return; 











} 
/* 如 果 链 表 中 至 少 有 两 个 定时 器 ， 且 目标 定时 器 是 链表 的 尾 结 点 ， 则 将 链表 的 尾 结 点 重 置 
为 原 尾 节点 的 前 一 个 节点 ， 然 后 删除 目标 定时 器 */ 
if (timer==tail) 
{ 
tail=tail-~>>prev; 
tail-~>next=NULL; 
delete timer; 
return; 























} 
/* 如 果 目 标定 时 器 位 于 链表 的 中 间 ， 则 把 它 前 后 的 定时 器 串联 起 来 ， 然 后 删除 目标 定时 器 
*/ 





timer->prev-~>next=timer-~>next; 
timer-~>>next-~>prev=timer->prev; 

delete timer; 

} 

/*SIGALRM 信 号 每 次 被 触发 就 在 其 信号 处 理 函 数 〈 如 果 使 用 统一 事件 源 ， 则 是 主 函数 ) 中 
执行 一 次 tick 函 数 ， 以 处 理 链表 上 到 期 的 任务 */ 

void tick() 

{ 

if(!head) 

{ 

return; 

’ 

printf ("timer tick\n"); 

time t cur=time (NULL);/* 获 得 系统 当前 的 时 间 */ 

util timer*tmp=head; 

/x* 从头 结 点 开始 依次 处 理 每 个 定时 器 ， 直 到 过 到 一 个 尚未 到 期 的 定时 器 ， 这 就 是 定时 器 的 
核心 逻辑 */ 

while (tmp) 

{ 

/* 因 为 每 个 定时 器 都 使 用 绝对 时 间作 为 超时 值 ， 所 以 我 们 可 以 把 定时 器 的 超时 值 和 系统 当 
前 时 间 ， 比 较 以 判断 定时 器 是 否 到 期 */ 
if (cur<tmp->>expire) 
{ 


break; 


























































































































} 

/* 调 用 定时 器 的 回调 函数 ， 以 执行 定时 任务 */ 

tmp- 字 cb func (tmp->user data); 

/* 执 行 完 定时 器 中 的 定时 任务 之 后 ， 就 将 它 从 链表 中 删除 ， 并 习 
head=tmp-~>next; 
if (head) 

{ 
head-~>prev=NULL; 
} 























mn 


置 链表 头 结 点 */ 














delete tmp; 
tmp=head; 
} 
} 
private: 
/* 一 个 重 载 的 辅助 函数 ， 它 被 公有 的 add timer 函 数 和 adjust timer 函 数 调 用 。 
数 表示 将 目标 定时 器 timer 添 加 到 节点 1st_head 之 后 的 部 分 链表 中 */ 
void aqd timer (util timer*timer,util timer*lst head) 
{ 
util timer*prev=lst head; 
util timer*tmp=prev-~>next; 
/* 裔 历 1st head 节 点 之 后 的 部 分 链表 ， 直 到 找到 一 个 超时 时 间 大 于 目标 定时 器 的 超时 时 
间 的 节点 ， 并 将 目标 定时 器 插入 该 节点 之 前 */ 
while (tmp) 
{ 
if (timer->expire<tmp-~>expire) 
{ 
prev-~>next=timer; 
timer-~>next=tmp; 
tmp->prev=timer; 
timer->prev=prev; 
break; 
} 
prev=tmp; 
tmp=tmp-~>next; 
} 
/* 如 果 亿 历 完 1st_heag 节 点 之 后 的 部 分 链表 ， 仍 未 找到 超时 时 间 大 于 目标 定时 器 的 超时 
时 间 的 节点 ， 则 将 目标 定时 器 插入 链表 尾部 ， 并 把 它 设 置 为 链表 新 的 尾 节 点 */ 
if(!tmp) 
{ 
prev-~>next=timer; 
timer->prev=prev; 
timer-~>next=NULL; 
tail=timer; 
} 
} 
private: 
util timer*head; 
util timer*tail; 
}; 
#endif 





























































































































为 了 便于 阅读 ， 我 们 将 实现 包含 在 头 文 件 中 。sort_timer_ lst 是 一 个 
升序 链表 。 其 核心 函数 tick 相 当 于 一 个 心 搏 函 数 ， 它 每 隔 一 段 固定 的 时 


间 就 执行 一 次 ， 以 检测 并 处 理 到 期 的 任务 。 判 断定 时 任务 到 期 的 依据 是 
定时 器 的 expire 值 小 于 当前 的 系统 时 间 。 从 执行 效率 来 看 ， 添 加 定时 器 
的 时 间 复 杂 度 是 O(n)， 删 除 定时 器 的 时 间 复 杂 度 是 O(1)， 执 行 定时 任务 
的 时 间 复 杂 上 度 是 O(1)。 


11.2.2 ”处 理 非 活动 连接 





现在 我 们 考虑 上 述 升 序 定时 器 链表 的 实际 应 用 一 一 处 理 非 活动 连 

接 。 服 务 器 程序 通常 要 定期 处 理 非 活动 连接 : 给 客户 端 发 一 个 重 连 请 
求 ， 或 者 关闭 该 连接 ， 或 者 其 他 。Linux 在 内 核 中 提供 了 对 连接 是 否 处 
于 活动 状态 的 定期 检查 机 制 ， 我 们 可 以 通过 socket 选 项 KEEPALIVE 来 激 
活 它 。 不 过 使 用 这 种 方式 将 使 得 应 用 程序 对 连接 的 管理 变 得 复杂 。 
此 ， 我 们 可 以 考虑 在 应 用 层 实现 类 似 于 KEEPALIVE 的 机 制 ， 以 管理 所 
有 长 时 间 处 于 非 活动 状态 的 连接 。 比 如 ， 代 码 清单 11-3 利 用 alarm 函 数 周 
期 性 地 触发 SIGALRM 信 和 号， 该 信号 的 信号 处 理 函 数 利用 管道 通知 主 循 
环 执行 定时 器 链表 上 的 定时 任务 一 一 关闭 非 活动 的 连接 。 





代码 清单 11-3 ”关闭 非 活动 连接 





#include=sys/types.h> 
#include=sys/socket.h> 
#include<netinet/in.h> 
#include=arpa/inet.h> 
#include=<=assert.n> 
#include=stdio.h> 
#include=signal.h> 
#include=<=unistd.n> 








#include=<=errno.h> 
#include=string.h> 
#include<=<=fcntl.h> 
#include=stdlib.hn> 
#include=<=sys/epoll.n> 
#include<=<=pthread.h> 
#include"lst timer.h" 
#define FD LIMIT 65535 
#define MAX EVENT NUMBER 1024 
De TIMESLOT 
static int pipefdl 



























































































































































/* 利 用 代码 清音 11- 2 中 的 天 序 链表 来 管理 定时 器 */ 


static sort timer lst timer lst; 
static int epollfd=0; 

int setnonblocking (int fqd) 

{ 

int old option=fcntl (fd,F GETFL); 

int new option=old option|O NONBLOCK; 
fcntl (fd,F SETFL,new option); 

return old option; 


} 
void addfd(int epol] 
{ 
epoll event event; 

event .data.fd=fd; 

vent .events=EPOLLIN|EPOLLET; 
epoll ctl (epollfd,EPOLL CTL 
setnonblocking (fd) ， 

} 

void sig handler (int sig) 

{ 
i 
int 




















fd,int fd) 



























































Save errno=errno; 
msg=sig; 








send (pipefd[1], (char*) &msg,1,0); 





rrno=save 
} 

void addsig(int sig) 

{ 

struct sigaction sa; 

memset (&sa,'\0',sizeof (sa)); 
sa.sa handler=sig handler; 


ELT 


























;fd, Kevent); 


sa.sa flags|=SA RESTART; 

sigfillset (&sa.sa mask); 

assert (sigaction (sig, &sa,NULL) !=-1); 
} 

void timer handler () 





{ 

















/* 定 时 处 理 任务 ， 实 际 上 就 是 调用 tick 函 数 */ 

















timer lst.tick(); 

/* 因 为 一 次 alarm 调 用 只 会 引起 一 次 SIGALRM 信 号 ， 所 以 我 们 要 重新 定时 ， 以 不 断 触 发 
IGALRM 信 号 */ 

alarm (TIMESLOT);} 


























} 

/* 定 时 器 回调 函数 ， 它 删除 非 活动 连接 socket 上 的 注册 事件 ， 并 关闭 之 */ 
void cb func(client data*user data) 

{ 
epoll ctl (epollfd,EPOLL CTL DEL,user data->sockfd,o0); 






































assert (user data); 
Close (user data-~>sockfd); 
printf("close fdsd\n",user data-~>sockfd); 








} 

int main(int argc,char*argv|[]) 

( 

if (argc 所 =2) 

{ 

Printf("usage:gss ip address port number\n",basename (argv{[0])); 
return 1; 

} 

const char*ip=argv[1]; 

int port=atoi (argv[21); 

int ret=0; 

struct sockaddr in address; 

bzero (&address,sizeof (address)); 

address.sin family=AF INET; 

inet pton (AF INET,ip,&address.sin addr); 

address.sin port=htons (port); 

int listenfd=socket (PF INET,SOCK STREAM,0); 

assert (listenfd>=0);， 

ret=bind (listenfd, (struct sockaddr*) &address,sizeof (address)); 
assert (ret!=-1);) 











































































































ret=listen (listenfd,5); 
assert (ret!=-1);) 


























epoll event events [MAX EVENT NUMBER]; 

int epollfd=epoll] create(5); 

assert (epollfd!=-1); 

addfqd (epollfdqd,1listenfd); 
ret=socketpair (PF UNIX,SOCK STREAM,0,pipefd); 
assert (ret!=-1);) 
setnonblocking (pipefd[1]); 
addfd(epollfd,pipefd[0]); 

/* 设 置信 号 处 理 函 数 */ 

addsig (SIGALRM)，; 

addsig (SIGTERM)，; 

bool stop server=false; 

client data*users=new client datalFD LIMIT]; 
bool timeout=false; 






































































































































alarm(T 


ME.SLOT) 


;/* 定 时 */ 


whilel(!stop server) 


{ 


Int number=epo] 
( (number=0)&& (errno!=E 





jE 
{ 
printf 
break; 
} 








for(int i=0; 





("epoll 





{ 


int sock 


if 





socklen 
int conn 
client addrlen 
fd (epoll] 
USsers [conn 
USsers [conn 
/* 创 建 定时 器 ， 设 置 其 回 
timer lst 中 */ 


adqd 








添加 到 链表 
Util 





(sock 








kfd=events[il]. 


/* 处 理 新 到 的 客户 连接 */ 


] wait (epo] 





























Fd==] 


isten 


fd) { 

















fq] . 
Ech 





fd=accept (] 
gth); 
fdy 


failure\n" 


data. 


struct sockaddr in clien 
t client addrlength=sizeo 


NTR)) 


); 


i~<number;i+t+) 





fds 


t address; 





isten 





fd, (struc 





connfdqd);} 





lfd,events,MAX 











EVENT NUMB 








ER, 








f(client address); 


sockaddr*) &client address,& 


address=client address; 





sockf 











timers>eb 


timer*time 
timer->user da 














func=cpb 





time 七 cur=time (NULL); 


fd=connfd 


调 函 数 与 超时 时 间 ， 然 后 绑 定 定时 器 与 


ta=&users[conn 
ED Ke 





r=new util timer; 
下 加 中 学 














tim 








users[conn 
timer lst.add 


M 








r->expire=cur+3*T 











fd]. 


timer=t 


ESLOT; 


imer; 





} 
/* 处 理 信号 */ 


else jf 


{ 


int 





((sock 


sig; 
char signals[] 








timer (七 








fd==pipef 














ret 
于 下 


{ 





(re 


=recv (pipe 
==-1) 





fqd[0] 


024]; 


d[0 


:Signals,sizeof 


imer);} 





(signals) 








])&& (events[il] 





//handle the error 
continue; 


} 


else i 


{ 





f (ret== 


continue; 


} 


else 


{ 


) 

















.events& 


0 








EPOLL 








j 户 数据 ， 最 后 将 定时 器 


N)) 





for (int i=0;i<ret;++i) 





{ 


switch(signals[i]) 


{ 


Case 5 


{ 


IGAL 





RM : 



























































/* 用 timeout 变 量 标记 有 定时 任务 需要 处 理 ， 但 不 立即 处 理 定时 任务 
| 三 | 


的 优先 级 不 是 很 高 


timeout=true; 





break; 


} 


Case 5 


{ 








GT 





























， 我 们 优先 处 理 其 他 更 重要 的 任务 */ 











ERM: 


stop server=true; 


/* 处 理 客户 连接 上 接收 到 的 数据 */ 


lse if 





(ev 





nts[i] .events&EPOLLIN) 








{ 


























memset (users[sockfd] .buf,'\0',BUFFER SIZE); 


ret=recv(sockfd,users[lsockfd] .buf,BUFFER SIZE-1,0); 



































区 下 





users[sockfd] .buf,sockfd);) 
util timer 





("ge 








tsd bytes of client data%s fromsd\n",ret, 




















*timer=users[sockfd] .timer; 

















if (ret<=0) 











EAGAIN) 








1 

{ 

/* 如 果 发 生 读 错 误 ， 则 关闭 连接 ， 并 移 除 其 对 应 的 定时 器 */ 
工人 

{ 





cb func(&users[sockfd]); 
if (timer) 














timer lst.del timer (timer); 


} 
} 
} 





else ifl(re 


t==0) 


。 这 是 因为 定时 任务 


{ 

/* 如 果 对 方 已 经 关闭 连接 ， 则 我 们 也 关闭 连接 ， 并 移 除 对 应 的 定时 器 */ 
cb func(&users[sockfd]); 
if (timer) 











{ 








timer lst.del timer (timer); 


} 
} 


else 

{ 

/x* 如 果 某 个 客户 连接 上 有 数据 可 读 ， 则 我 们 要 调整 该 连接 对 应 的 定时 器 ， 以 延迟 该 连接 被 
关闭 的 时 间 */ 

if (timer) 

{ 
time 七 cur=time (NULL); 
timer->>expire=cur+3*TIMESLOT; 
printf("adjust timer once\n"); 
timer lst.adjust timer (timer); 

} 

} 

} 

else 

{ 

//others 

} 

} 

/* 最 后 处 理 定时 事件 ， 因 为 I/0 事 件 有 更 高 的 优先 级 。 当 然 ， 这 样 做 将 导致 定时 任务 不 能 
精确 地 按照 预期 的 时 间 执 行 */ 

if (timeout) 

{ 
timer handler (); 
timeout=false; 
} 
} 
close (listenfd); 
close (pipefdl[1]) 
close (pipefd[0]) 
delete[]users; 
return 0; 


} 
二 一 

























































































11.3 IO 复 用 系统 调用 的 超时 参数 


Linux 下 的 3 组 IO 复 用 系统 调用 都 带 有 超时 参数 ， 因 此 它们 不 仅 能 
统一 处 理 信 号 和 IO 事件 ， 也 能 统一 处 理 定 时 事件 。 但 是 由 于 IO 复 用 系 
统 调用 可 能 在 超时 时 间 到 期 之 前 就 返回 〈 有 LO 事件 发 生 ) ， 所 以 如 果 
我 们 要 利用 它们 来 定时 ， 就 需要 不 断 更 新 定时 参数 以 反映 剩余 的 时 间 ， 
如 代码 清单 11-4 所 示 。 








代码 清单 11-4 利用 MO 复 用 系统 调用 定时 








#define TIMEOUT 5000 
int timeout=TIMEOUT; 












































time t start=time (NULL); 

time 七 end=time (NULL); 

while (1) 

{ 

printf("the timeout is now%d mil-seconds\n",timeout); 











start=time (NULL); 
int number=epoll] wait (epollfd,events,MAX EVENT NUMBER,timeout); 
if( (number=<0)&& (errno!=EINTR)) 

{ 

printf ("epoll failure\n"); 

break; 

} 

/* 如 果 epoll_wait 成 功 返 回 0， 则 说 明 超 时 时 间 到 ， 此 时 便 可 处 理 定 时 任务 ， 并 重 置 定 
时 时 间 */ 

if (number==0) 

{ 

timeout=TIMEOUT; 

continue; 

} 

end=time (NULL); 

/* 如 果 epoll_wait 的 返回 值 大 于 0， 则 本 次 epo1l1l_wait 调 用 持续 的 时 间 是 (eng- 
start)*1000 ms， 我 们 需要 将 定时 时 间 timeout 减 去 这 段 时 间 ， 以 获得 下 次 epoll wait 调 
用 的 超时 参数 */ 













































































出 






































timeout-= (end-start)*1000; 

/* 重 新 计算 之 后 的 timeout 值 有 可 能 等 于 0， 说 明 本 次 epoll wait 调 用 返回 时 ， 不 仪 有 
文件 描述 符 就 绪 ， 而 且 其 超时 时 间 也 刚好 到 达 ， 此 时 我 们 也 要 处 理 定时 任务 ， 并 重 置 定时 时 间 
去 


























if (timeout<==0) 

{ 

timeout=TIMEOUT; 

} 

//handle connections 


} 

















11.4.1 时 间 轮 





前 文 提 到 ， 基 于 排序 链表 的 定时 器 存在 一 个 问题 : 添加 定时 器 的 效 
率 偏 低 。 下 面 我 们 要 讨论 的 时 间 轮 解决 了 这 个 问题 。 一 种 简单 的 时 间 轮 
如 图 11-1 所 示 。 












| 定时 器 上 定时 器 | 


图 11-1 简单 的 时 间 轮 


图 11-1 所 示 的 时 间 轮 内 ，《 实 线 ) 指针 指向 轮子 上 的 一 个 模 
(slot) 。 它 以 恒定 的 速度 顺 时 针 转 动 ， 每 转动 一 步 束 指向 下 一 个 权 
(虚线 指针 指向 的 柳 ) ， 每 次 转动 称 为 一 个 滴答 (tick〉 。 一 个 涌 答 的 
时 间 称 为 时 间 轮 的 模 间 隔 si (slot interval) ， 它 实际 上 就 是 心 搏 时间 。 
该 时 间 轮 共有 N 个 槽 ， 因 此 和 它 运 转 一 周 的 时 间 是 N*si。 每 个 槽 指 同一 条 
定时 需 链 表 ， 每 条 链表 上 的 定时 圳 具有 相同 的 特征 : 它们 的 定时 时 间 相 





差 N*si 的 整数 倍 。 时 间 轮 正 是 利用 这 个 关系 将 定时 器 散 列 到 不 同 的 链表 
中 。 假 如 现在 指针 指向 模 cs， 我 们 要 添加 一 个 定时 时 间 为 ti 的 定时 右 ， 
则 该 定时 器 将 被 插入 槽 ts (timer slot) 对 应 的 链表 中 


ts= (cs+ (ti/s1)) %N (11-1) 





基于 排序 链表 的 定时 器 使 用 唯一 的 一 条 链表 来 管理 所 有 定时 器 ， 上 所 
以 插入 操作 的 效率 随 独 定时 器 数目 的 增多 而 降低 。 而 时 间 轮 使 用 哈 希 表 
的 思想 ， 将 定时 豆 散 列 到 不 同 的 链表 上 。 这 样 每 条 链表 上 的 定时 吉 数 目 
都 将 明显 少 于 原来 的 排序 链表 上 的 定时 霹 数 目 ， 插 入 操作 的 效率 基本 不 
受 定时 器 数目 的 影 啊 。 





很 显然 ， 对 时 间 轮 而 言 ， 要 提高 定时 精度 ， 就 要 使 si 值 足够 小 ， 要 
提高 执行 效率 ， 则 有 要求 N 值 足够 大 。 


图 11-1 描 述 的 是 一 种 简单 的 时 间 轮 ， 因 为 它 只 有 一 个 轮子 。 而 复杂 
的 时 间 轮 可 能 有 多 个 轮子 ， 不 同 的 轮子 拥有 不 同 的 粒度 。 相 邻 的 两 个 轮 
子 ， 精 度 高 的 转 一 圈 ， 精 度 低 的 仅 往 前 移动 一 槽 ， 就 像 水 表 一 样 。 下 面 
将 按照 图 11-1 来 编写 一 个 较为 简单 的 时 间 轮 实现 代码 ， 如 代码 清单 11-5 
所 示 。 





代码 清单 11-5 时间 轮 








#ifndef TIME WHEEL T 
#define TIME WHEEL T 


#include=time.h> 








站 
































旨 
E 








#incJ 
#incJ 
#define BUFFER S 




















2 





CD 





class tw timer; 


/x* 绑 定 socket 和 和 定时 器 */ 


struct c] 


{ 


sockaddr 
int socki 


Hh | 


a> 








char buf [BUFF 
tw timer*timer; 


jn 


lient data 


lude=netinet/in.h>> 
lude=stdio.h> 


64 


in address; 








ER S 
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/* 定 时 器 类 */ 
class tw timer 


{ 


public: 


tw timer (Int rot,int ts) 
:next (NULL) ,prev (NULL), rotation(rot),time slot (ts)1{} 








EBLLG: 


各 四 





int 





void(*cb 1 











t rotation;/* 记 录 定 时 器 在 时 间 轮 转 多 少 
t time_slot;/* 记 录 定 时 器 属于 时 间 轮 上 哪个 机 
Func) (client data*);/* 定 时 器 回调 函数 */ 








图 后 生效 */ 


























i 《对 应 的 链 








client data*user data;/* 客 户 数据 */ 








LW 








上 


LW 





class time wheel 


{ 


public: 


{ 








{ 


slots[i]=NULL;/* 初 始 化 每 个 相 





} 
} 


~time wheel () 


time wheel():cur slot(0) 


for (int i=0;i<N;++i) 

















timer*next;/* 指 向 下 一 个 定时 器 */ 
timer*prev;/* 指 同 前 一 个 定时 器 */ 





日 


的 头绪 点 */ 


{ 
/* 通 历 每 个 槽 ， 并 销毁 其 中 的 定时 器 */ 





{ 





while (tmp) 


{ 





for (int i=0;i<N;++i) 


tw timer*tmp=slots[i]; 


slots[i]=tmp-~>next; 
delete tmp; 
tmp=slots[i]; 


} 





> 


F 同 ) */ 


} 












































/根据 定时 值 Limeout 创 建 一 个 定时 器 ， 并 把 它 插入 合适 的 槽 中 */ 
tw timer*add timer (int timeout) 

I 

a NULL; 

A ticks=0; 











/* 下 面 根据 待 插入 定时 器 的 超时 值 计算 它 将 在 时 间 轮 转动 多 少 个 涌 答 后 被 触发 ， 并 将 该 滴 


答 数 存 人 





{ 






































渚 于 变量 ticks 中 。 如 果 待 插入 定时 器 的 超时 值 小 于 时 间 轮 的 槽 间隔 SI， 则 将 ticks 向 
上 折合 为 1， 否 则 就 将 ticks 向 下 折合 为 timeout/SI*/ 
if (timeout<=SsI) 

















ticks=1;} 


} 


else 


{ 


ticokestineout/ Sr 


} 





/* 计 算 待 插入 的 定时 器 在 时 间 轮 转动 多 少 圈 后 被 触发 */ 


in 








rotation=ticks/N; 


























/* 计 算 待 插入 的 定时 器 应 该 被 插入 哪个 模 中 * / 


in 


/* 创 建新 的 定时 器 ， 它 在 时 间 轮 转动 rotatio 





ts=(cur slot+(ticks%$N) ) SN; 














峰之 后 被 触 太 ， 且 位 于 第 ts 个 权 上 */ 








名 











tw timer*timer=new tw 七 imer (Totationyvts) 


/* 如 果 第 ts 个 槽 中 尚 无 任何 定时 器 ， 则 把 新 建 的 定时 器 插入 其 中 ， 并 将 该 定时 器 设置 为 该 

















槽 的 头 结 点 */ 














二 





























» 
jf 





( 





Islots[ts]) 





{ 


printf("add timer,rotation is%d,ts is%d,cur slot 
issd\n", rotation,ts,cur slot); 
slotsl[ts]=timer; 








} 
/* 人 否则， 将 定时 器 插入 第 ts 个 槽 中 */ 


























else 

{ 
timer-~>next=slots[lts]; 
slots[ts]-~>prev=timer; 
slots[lts]=timer; 

} 

return timer; 

} 

/* 删 除 目标 定时 器 timer*/ 








void del timer (tw timer*timer) 


{ 








if(!timer) 


{ 


return; 


} 
int ts=timer-~>time slot; 


/xslots[ts] 是 目标 定时 器 所 在 槽 的 头 结 点 。 如 果 目 标定 时 器 就 是 该 头 结 点 ， 则 需要 重 置 








































































































第 ts 个 槽 的 头 结 点 * 7/ 
if (timer==slots[ts]) 
{ 
slots[ts]=slots[ts]-~>>next; 
if(slots[ts]) 
{ 
slots[ts]->>prev=NULL; 
} 
delete timer; 
} 
else 
{ 
timer->prev-~>next=timer-~>next; 
if (timer-~>next) 
{ 
timer-~>>next-~>prev=timer->prev; 
} 


delete timer; 

} 

} i 

/x*SI 时 间 到 后 ， 调 用 该 函数 ， 时 间 轮 向 前 滚动 一 个 槽 的 间隔 */ 
void tick() 

{ 

tw timer*tmp=slots[cur slot];/* 取 得 时 间 轮 上 当前 槽 的 头 结 点 */ 
printf("current slot ai， 

while (tmp) 

{ 

printf ("tick the timer once\n"); 

/* 如 果 定 时 器 的 rotation 值 大 于 0， 则 它 在 这 一 轮 不 起 作用 */ 
if (tmpb- 字 rotation 之 0) 

{ 

tmp=rotation~~> 

tmp=tmp-~>next; 


















































* 否 则 ， 说 明定 时 器 已 经 到 期 ， 于 是 执行 定时 任务 ， 然 后 删除 该 定时 器 */ 
else 
{ 
tmp-~>cb func (tmp->user data); 
if (tmp==slots[cur slot]) 
{ 
printf("delete header in cur slot\n"); 
slots[cur slot]=tmp-~>next; 
delete tmp; 
































f(SLots [cur slot]) 





lots[cur slot]-~>prev=NULL; 
mp=slots[lcur slot]; 


lse 


一 一 (一 一 Un °F- 


tmp->prev-~>next=tmp- 和 next; 
if (tmp-~>next) 

{ 
tmp-~>next->prev=tmp- 六 prev; 
} 
tw timer*tmp2=tmp-~>next; 
delete tmp; 

tmp=tmp2; 














cur slot=++cur slot%N;/* 更 新 时 间 轮 的 当前 柳 ， 以 反映 时 间 轮 的 转动 */ 
} 

private: 

/* 时 间 轮 上 槽 的 数目 */ 

static const int N=60; 

/* 每 1 s 时 间 轮 转动 一 次 ， 即 槽 间 阳 为 1 s*/ 

static const int SI=1; 

/x* 时 间 轮 的 槽 ， 其 中 每 个 元 素 指向 一 个 定时 器 链表 ， 链 表 无 序 */ 

tw timer*slots[N]; 

int cur sl1ot;/x* 时 间 轮 的 当前 模 */ 
}; 
#endif 










































































可 见 ， 对 时 间 轮 而 言 ， 添 加 一 个 定时 右 的 时 间 复 杂 民 是 O (1) ， 
删除 一 个 定时 器 的 时 间 复 杂 度 也 是 O (1) ， 执 行 一 个 定时 器 的 时 间 复 
杂 度 是 O Cn) 。 但 实际 上 执行 一 个 定时 器 任务 的 效率 要 比 O (n) 好 得 
多 ， 因 为 时 间 轮 将 所 有 的 定时 器 散 列 到 了 不 同 的 链表 上 。 时 间 轮 的 模 越 
多 ， 等 价 于 散 列 表 的 入 口 (entry) 越 多 ， 从 而 每 条 链表 上 的 定时 右 数 量 
越 少 。 此 外 ， 我 们 的 代码 仅 使 用 了 一 个 时 间 轮 。 当 使 用 多 个 轮子 来 实现 














时 间 轮 时 ， 执 行 一 个 定时 圳 任务 的 时 间 复 杂 度 将 接近 O (1) 。 读 者 不 
妨 把 代码 清单 11-3 稍 做 修改 ， 用 时 间 轮 来 代 蔡 排序 链表 ， 以 查看 时 间 轮 
的 工作 方式 和 效率 。 


11.4.2 时间 堆 


前 面 讨 论 的 定时 方案 都 是 以 固定 的 频率 调用 心 搏 函 数 tick， 并 在 其 
中 依次 检测 到 期 的 定时 器 ， 然 后 执行 到 期 定时 器 上 的 回调 函数 。 设 计 定 
时 器 的 另外 一 种 思路 是 : 将 所 有 定时 器 中 超时 时 间 最 小 的 一 个 定时 器 的 
超时 值 作为 心 搏 间隔 。 这 样 ， 一 旦 心 搏 函数 tick 被 调用 ， 超 时 时 间 最 小 
的 定时 器 必然 到 期 ， 我 们 就 可 以 在 tick 函 数 中 处 理 该 定时 器 。 然 后 ， 再 
次 从 剩余 的 定时 器 中 找 出 超时 时 间 最 小 的 一 个 ， 并 将 这 段 最 小 时 间 设 置 
为 下 一 次 心 搏 间隔 。 如 此 反复 ， 就 实现 了 较为 精确 的 定时 。 





最 小 堆 很 适合 处 理 这 种 定时 方案 。 最 小 堆 是 指 每 个 节点 的 值 都 小 于 
或 等 于 其 子 市 点 的 值 的 完全 二 文 树 。 图 11-2 给 出 了 一 个 具有 6 个 元 素 的 
最 小 堆 。 


图 11-2 最 小 堆 


树 的 基本 操作 是 插入 节点 和 删除 节点 。 对 最 小 堆 而 言 ， 它 们 都 很 简 
单 。 为 了 将 一 个 元 素 X 插 入 最 小 堆 ， 我 们 可 以 在 树 的 下 一 个 空闲 位 置 创 
建 一 个 空 从 。 如 果 X 可 以 放 在 空 穴 中 而 不 破坏 堆 序 ， 则 插入 完成 。 否 则 
束 执 行 上 虑 操作 ， 即 交换 空 闪 和 它 的 父 节 点 上 的 元 系 。 不 断 执 行 上 述 过 
程 ， 直 到 X 可 以 被 放 入 空 六 ， 则 插入 操作 完成 。 比 如 ， 我 们 要 往 图 11-2 
所 示 的 最 小 堆 中 插入 值 为 14 的 元 素 ， 则 可 以 按照 图 11-3 所 示 的 步骤 来 操 
作 。 








图 11-3 最 小 堆 的 播 入 操作 
a) 创建 空 穴 b) 上 虑 一 次 c) 上 虑 二 次 


最 小 堆 的 删除 操作 指 的 是 删除 其 根 市 点 上 的 元 素 ， 并 且 不 破坏 堆 序 
性 质 。 执 行 删除 操作 时 ， 我 们 需要 先 在 根 节点 处 创建 一 个 空 六 。 由 于 堆 
现在 少 了 一 个 元 素 ， 因 此 我 们 可 以 把 堆 的 最 后 一 个 元 素 X 移 动 到 该 堆 的 
某 个 地 方 。 如 果 X 可 以 被 放 入 空 穴 ， 则 删除 操作 完成 。 否 则 就 执行 下 虑 
操作 ， 即 交换 空 闪 和 它 的 两 个 儿子 节点 中 的 较 小 者 。 不 断 进 行 上 述 
程 ， 直 到 X 可 以 被 放 入 空 穴 ， 则 删除 操作 完成 。 比 如 ， 我 们 要 对 图 11-2 
所 示 的 最 小 堆 执 行 删除 操作 ， 则 可 以 按照 图 11-4 所 示 的 步骤 来 执行 。 


A ee 


图 11-4 最 小 堆 的 删除 操作 
a) 在 根 节 点 处 创建 空 穴 b) 下 虑 一 次 c) 下 虑 二 次 








由 于 最 小 堆 是 一 种 完全 二 又 树 ， 所 以 我 们 可 以 用 数组 来 组 织 其 中 的 
元 素 。 比 如 ， 图 11-2 所 示 的 最 小 堆 可 以 用 图 11-5 所 示 的 数组 来 表示 。 对 
于 数组 中 的 任意 一 个 位 置 1 上 的 元 素 ， 其 左 儿 子 市 点 在 位 置 2i+1 上 ， 其 右 
儿子 市 点 在 位 置 2i+2 上 ， 其 父 节 点 则 在 位 置 [ (i-1〉/2] (Ci>0) 上。 与 用 
链表 来 表示 堆 相 比 ， 用 数组 表示 堆 不 仅 节 省 空间 ， 而 且 更 容易 实现 堆 的 
插入 、 删 除 等 操作 1 。 
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图 11-5 最 小 堆 的 数组 表示 


假设 我 们 已 经 有 一 个 包含 N 个 元 素 的 数组 ， 现 在 要 把 它 初 始 化 为 一 
个 最 小 堆 。 那 么 最 简单 的 方法 是 : 初始 化 一 个 空 堆 ， 然 后 将 数组 中 的 每 
个 元 素 插 入 该 堆 中 。 不 过 这 样 做 的 效率 偶 低 。 实 际 上 ， 我 们 只 需要 对 数 
组 中 的 第 [(N-1)/2]~~0 个 元 系 执 行 下 虑 操作 ， 即 可 确保 该 数组 构成 一 
个 最 小 堆 。 这 是 因为 对 包含 N 个 元 素 的 完全 二 又 树 而 言 ， 它 具有 [ 〈N- 
1) /2] 个 非 叶 子 节 点 ， 这 些 非 叶 子 节 点 正 是 该 完全 二 又 树 的 第 0 一 [ 〈N- 
1) /2] 个 节点 。 我 们 只 要 确保 这 些 非 叶子 节点 构成 的 子 树 都 具有 堆 序 性 
质 ， 整 个 树 残 具 有 堆 序 性 质 。 








我 们 称 用 最 小 堆 实 现 的 定时 器 为 时 间 堆 。 代 码 清单 11-6 给 出 了 一 种 
时 间 堆 的 实现 ， 其 中 ， 最 小 堆 使 用 数组 来 表示 。 


代码 清单 11-6 ”时 间 堆 




















#ifndef MIN HEAP 
#define MIN HEAP 
#include=iostream> 
#include<netinet/in.nh> 
#include<=time.h> 
using std::exception; 
#define BUFFER SIZE 64 
class heap timer;/* 前 问 声明 */ 
/x* 绑 定 socket 和 定时 器 */ 
struct client data 

{ 

sockaddr in address; 
于 

char buf [BUFFER SIZE]; 
heap timer*timer; 

}; 

/* 定 时 器 类 */ 

class heap timer 

{ 

和 

heap timer (int delay) 


{ 
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xpire=time (NULL) +delay; 
} 
public: 
time t+ expire;/* 定 时 器 生效 的 绝对 时 间 */ 
void(*cb func) (client data*);/* 定 时 器 的 回调 函数 */ 
client data*user data;/* 用 户 数 据 */ 
}; 
/* 时 间 堆 类 */ 
class time heap 
{ 
public: 
/* 构 造 函 数 之 一 ， 初 始 化 一 个 大 小 为 cap 的 空 堆 */ 
time heap(int cap)throwl(std::exception) :capacity(cap),cur size(0) 
{ 
array=new heap timer*[capacity];/* 创 建 堆 数组 */ 
if(!larray) 
{ 
throw std: :exception () ， 
} 
tor(int i=0»r1i~cCAapaclity;}++1) 


{ 
























































array[i]=NULL; 
} 


} 

/x* 构 造 函 数 之 二 ， 用 已 有 数组 来 初始 化 堆 */ 
time heap (heap timer**init array,int size,int capacity)throw 
(std: :exception) :cur size(size),capacity(capacity) 

{ 

if (capacity<=~=size) 

{ 

throw std: :exception(); 

} 

array=new heap timer*[capacity];/* 创 建 堆 数组 */ 

if(!larray) 

{ 

throw std: :exception () ， 

} 
for(int i=0;i<capacity;++i) 
{ 

array[i]=NULL; 

} 


if(size!=0) 















































{ 

/* 初 始 化 堆 数 组 */ 
for (int i=0;i<size;++i) 

{ 

array[il]=init array[I]'， 

} 

for(int i=(cur size-1)/2;i>=0;--i) 

{/* 对 数组 中 的 第 [ (cur_size-1) /2] ~0 个 元 素 执 行 下 虑 操 作 */ 
percolate down (i); 

} 

} 

} 

/* 销 毁 时 间 堆 */ 

~time heap () 

{ 

for (int i=0;i<cur size;++i) 

{ 

delete array[il]; 

} 
delete[]array; 

} 

ble 

/* 添 加 目标 定时 器 timer*/ 

void aqd timer (heap timer*timer)throw(std::exception) 
{ 

if(!timer) 


{ 
























































return; 

} 

if(cur_size>=capacity) /x* 如 果 当 前 扒 数组 容量 不 够 ， 则 将 其 扩大 1 倍 */ 
{ 


resize()， 














} 

/* 新 插入 了 一 个 元 素 ， 当 前 堆 大 小 加 1，hole 是 新 建 空 穴 的 位 置 */ 
int hole=cur sizett+; 
int parent=0; 

/* 对 从 空 穴 到 根 节点 的 路 径 上 的 所 有 节点 执行 上 上 处 操作 */ 
for(;hole~>0;hole=parent) 

{ 

parent= (hole-1)/2; 

if (array[parent]->expire<=timer->expire) 
{ 

break; 

} 

array[lholel]l=arraylparent]; 

} 


array[holel]=timer; 





























} 

/* 删 除 目标 定时 器 timer*/ 

void del timer (heap timer*timer) 

{ 

if(!timer) 

{ 

return; 

} 

/x 仅 仅 将 目标 定时 器 的 回调 函数 设置 为 室 ， 即 所 谓 的 延迟 销毁 。 这 将 节省 真正 删除 该 定时 
器 造成 的 开销 ， 但 这 样 做 容易 使 堆 数组 膨胀 */ 


timer->cb func=NULL; 



























































} 

/* 获 得 堆 顶 部 的 定时 器 */ 
heap timerxtop () const 
{ 

if (empty () ) 





return NULL; 
A arxrayld ls 
/删除 堆 项 部 的 定时 器 */ 
void pop timer() 

人 (empty () ) 


} 





























If (array[0]) 

{ 

delete array[0]; 

/* 将 原来 的 堆 顶 元 素 蔡 换 为 堆 数组 中 最 后 一 个 元 素 */ 
array[0]=array[--cur sizel]; 

percolate_down (0);/* 对 新 的 堆 顶 元 素 执 行 下 虑 操作 */ 
} 

} 

/* 心 捕 函 数 */ 

void tick() 

{ 
heap timer*tmp=array[0]; 
time t cur=time (NULL) ;/* 循 环 处 理 堆 中 到 期 的 定时 器 */ 
while(lempty()) 

{ 

If (!tmp) 

{ 


break; 


































































































} 

/* 如 果 堆 顶 定 时 器 没 到 期 ， 则 退出 循环 */ 
if (tmp->expire~>>cur) 

{ 


break; 








} 

/* 否 则 就 执行 堆 顶 定时 器 中 的 任务 */ 
if(array[0]-~>cb func) 

{ 

array[0]-~>cb funcl(array[l0]-~>user data); 

} 

/* 将 堆 顶 元 素 删除 ， 同 时 生成 新 的 堆 顶 定时 器 (array[0]) */ 
pop timer(); 

tmp=array[0]; 

} 

} 

bool empty()const{return cur size==0;} 

private: 
/* 最 小 堆 的 下 虑 操作 ， 它 确保 堆 数 组 中 以 第 hole 个 节点 作为 根 的 子 树 拥有 最 小 堆 性 质 */ 
void percolate down(int hole) 

{ 

heap timer*temp=arrayl[lholel]; 

int child=0; 

for(;((hole*2+1)<==(cur size-1));hole=child) 

{ 
child=hole*2+1; 
if((child< (cur size-1))&& (array[child+1]->expire<array[child]- 
expire)) 

{ 
++child; 





































































































f(array[child]->expire<temp-~>expire) 


rray[lholel]l=array[childl]; 


一 
Un 
(0 


reak; 


rray[lholel]=temp; 














/* 将 堆 数 组 容量 扩大 1 倍 */ 

void resize()throw (std::exception) 

heap timer**temp=new heap timer*[2*capacity]; 

for(tint i=0;i<2*capacity;++i) 

{ 

temp[li]=NULL; 

} 

if(!temp) 

{ 

throw std: :exception () ， 

} 

capacity=2*capacity; 

for(int i=0;i<cur size;++i) 

{ 

temp[i]j=array[il]; 

} 

delete[]array; 

array=temp; 

} 

private: 

heap timer**array;/* 堆 数组 */ 

int capacity;/* 堆 数组 的 容量 */ 
cur_size;/* 堆 数组 当前 包含 元 素 的 个 数 */ 



























































由 代码 清单 11-6 可 见 ， 对 时 间 堆 而 言 ， 添 加 一 个 定时 器 的 时 间 复 杂 
度 是 O (gn) ， 删 除 一 个 定时 器 的 时 间 复 杂 度 是 O (1) ， 执 行 一 个 定 
时 器 的 时 间 复 杂 度 是 O (1) 。 因 此 ， 时 间 堆 的 效率 是 很 高 的 。 





第 12 章 ”高 性 能 1/O 框 架 库 Libevent 


前 面 我 们 利用 三 章 的 篇 幅 较 为 细致 地 讨论 了 Linux 服 务 器 程序 必须 
处 理 的 三 类 事件 : IO 事件 、 信 号 和 定时 事件 。 在 处 理 这 三 类 事件 时 我 


们 通常 需要 考虑 如 下 三 个 问题 : 


口 统一 事件 源 。 很 明显 ， 统 一 处 理 这 三 类 事件 既 能 使 代码 简单 易 
懂 ， 又 能 避免 一 些 潜在 的 逻辑 错误 。 前 面 我 们 已 经 讨论 了 实现 统一 事件 
源 的 一 般 方法 一 一 利用 VO 复 用 系统 调用 来 管理 所 有 事件 。 


口 可 移植 性 。 不 同 的 操作 系统 具有 不 同 的 VO 复 用 方式 ， 比 如 Solaris 
的 dev/poll 文 件 ，FreeBSD 的 kqueue 机 制 ，Linux 的 epoll 系 列 系统 调用 。 


口 对 并 发 编程 的 支持 。 在 多 进程 和 多 线程 环境 下 ， 我 们 需要 考虑 各 
执行 实体 如 何 协 同 处 理 客户 连接 、 信 号 和 定时 器 ， 以 避免 竞 态 条 件 。 


所 和 邓 的 是 ， 开 源 社区 提供 了 诸多 优秀 的 MO 框架 库 。 它 们 不 仅 解雇 
了 上 述 问 题 ， 让 开发 者 可 以 将 精力 完全 放 在 程序 的 逻辑 上 ， 而 且 稳定 
性 、 性 能 等 各 方面 都 相当 出 色 。 比 如 ACE、ASIO 和 Libevent。 本 章 将 介 
绍 其 中 相对 轻 量 级 的 Libevent 框 架 库 。 


12.1 IO 框架 库 概 述 


LO 框架 库 以 库 函 数 的 形式 ， 封 逆 了 较为 奔 层 的 系统 调用 ， 给 应 用 
程序 提供 了 一 组 更 便于 使 用 的 接口 。 这 些 库 函 数 往往 比 程序 员 自 己 实现 
的 同样 功能 的 函数 更 合理 、 更 高 效 ， 且 更 健壮 。 因 为 它们 经 受 住 了 真实 
网 络 环境 下 的 高 压 测 试 ， 以 及 时 间 的 考验 。 








各 种 MO 框架 库 的 实现 原理 基本 相似 ， 要 么 以 Reactor 模 式 实现 ， 要 
么 以 Proactor 模 式 实 现 ， 要 么 同时 以 这 两 种 模式 实现 。 举 例 来 说 ， 基 于 
Reactor 模 式 的 VO 框 染 库 包 含 如 下 几 个 组 件 : 句柄 (Handle〉、 事 件 多 
路 分 发 器 (EventDemultiplexer) 、 事 件 处 理 器 (EventHandler) 和 具体 


的 事件 处 理 器 (ConcreteEventHandler) 、Reactor。 这 些 组 件 的 关系 如 
图 12-1 所 示 [6] 。 






dispatches 







Reactor 


+handle_events () :void re 
+register_handler () :void Rs 
+remove_handler () :void 一 一 一 一 一 一 一 


<<uses>> ! 
1 





EventHandler 

















+get_handle () :Handle 
+handle_event() :void 





notifies 





EventDemultiplexer 


+register_event () :void 
+remove_event () :void 
+demultiplex () :void 









ConcreteEventHandler 


+handle_event() :void 


图 12-1 I/O 框 架 库 组 件 


1. 句 柄 


IO 框架 库 要 处 理 的 对 象 ， 即 IO 事件 、 信 号 和 定时 事件 ， 统 一 称 为 
事件 源 。 一 个 事件 源 通 香 和 一 个 句柄 绑 定 在 一 起 。 句 柄 的 作用 是 ， 当 内 
核 检 测 到 就 绪 事 件 时 ， 它 将 通过 句柄 来 通知 应 用 程序 这 一 事件 。 在 
Linux 环 境 下 ，IO 事 件 对 应 的 句柄 是 文件 描述 符 ， 信 号 事件 对 应 的 句柄 








2. 事 件 多 路 分 发 器 


事件 的 到 来 是 随机 的 、 异 步 的 。 我 们 无 法 预知 程序 何 时 收 到 一 个 客 
户 连接 请 求 ， 又 亦 或 收 到 一 个 暂停 信号 。 所 以 程序 需要 循环 地 等 待 并 处 
理事 件 ， 这 就 是 事件 循环 。 在 事件 循环 中 ， 等 待 事件 一 般 使 用 1/O 复 用 
技术 来 实现 。IO 框 架 库 一 般 将 系统 支持 的 各 种 IO 复 用 系统 调用 封装 成 
统一 的 接口 ， 称 为 事件 多 路 分 发 器 。 事 件 多 路 分 发 器 的 demultiplex 方 法 
是 等 待 事件 的 核心 函数 ， 其 内 部 调用 的 是 select、poll、epollL_wait 等 函 
数 。 








此 外 ， 事 件 多 路 分 发 器 还 需要 实现 register_event 和 remove_event 方 
法 ， 以 供 调 用 者 往事 件 多 路 分 发 颖 中 添加 事件 和 从 事件 多 路 分 发 器 中 删 
除 事件 。 


3. 事 件 处 理 器 和 具体 事件 处 理 器 


事件 处 理 器 执行 事件 对 应 的 业务 逻辑 。 它 通常 包含 一 个 或 多 个 
handle_event 回 调 函 数 ， 这 些 回 调 函 数 在 事件 循环 中 被 执行 。1/O 框 架 库 


提供 的 事件 处 理 器 通常 是 一 个 接口 ， 用 户 需 要 继承 它 来 实现 自己 的 事件 
处 理 器 ， 即 具体 事件 处 理 器 。 因 此 ， 事 件 处 理 器 中 的 回调 函数 一 般 被 声 
明 为 虚 函 数 ， 以 文 持 用 户 的 扩展 。 

此 外 ， 事 件 处 理 器 一 般 还 提供 一 个 get_handle 方 法 ， 它 返回 与 该 事 
件 处 理 器 关联 的 句柄 。 那 么 ， 事 件 处 理 器 和 句柄 有 什么 关系 ? 当 事 件 多 
路 分 发 圳 检测 到 有 事件 发 生 时 ， 它 是 通过 句柄 来 通知 应 用 程序 的 。 因 
此 ， 我 们 必须 将 事件 处 理 器 和 句柄 绑 定 ， 才 能 在 事件 发 生 时 获取 到 正确 
的 事件 处 理 器 。 


4.Reactor 
Reactor 是 WO 框架 库 的 核心 。 它 提供 的 几 个 主要 方法 是 : 


Dhandle_events。 该 方法 执行 事件 循环 。 它 重复 如 下 过 程 ， 等 待 事 
件 ， 然 后 依次 处 理 所 有 就 绪 事 件 对 应 的 事件 处 理 器 。 





Dregister_handler。 该 方法 调用 事件 多 路 分 发 器 的 register_event 方 法 
来 往事 件 多 路 分 发 器 中 注册 一 个 事件 。 


Dremove_handler。 访 方法 调用 事件 多 路 分 发 器 的 remove_event 方 法 
来 删除 事件 多 路 分 友 器 中 的 一 个 事件 。 





图 12-2 总 结 了 LO 框架 库 的 工作 时 序 。 


Application Reactor EventDemultiplexer ConcreteEventHandler 











register_handler () 
get_handler () 


Tegister_event () 





handle_events () 


demultiplex () 


handle_event () 


handle ready 





图 12-2 I/O 框 架 库 的 工作 时 序 图 


12.2 ”Libevent 源 码 分 析 


Libevent 是 开源 社区 的 一 款 高 性 能 的 VO 框架 库 ， 其 学 习 者 和 使 用 者 
众多 。 使 用 Libevent 的 著名 案例 有 : 高 性 能 的 分 布 式 内 存 对 象 缓存 软件 
memcached，Google 浏 览 器 Chromium 的 Linux 版 本 。 作 为 一 个 MO 框架 
库 ，Libevent 具 有 如 下 特点 : 








口 跨 平台 支持 。Libevent 支 持 Linux、UNIX 和 Windows。 


口 统 一 事件 源 。Libevent 对 IO 事件 、 信 号 和 和 定时 事件 提供 统一 的 处 
理 。 


口 线 程 安 全 。Libevent 使 用 libevent_pthreads 库 来 提供 线程 安全 支 


口 基于 Reactor 模 式 的 实现 。 


这 一 节 中 我 们 将 简单 地 研究 一 下 Libevent 源 代码 的 主要 部 分 。 分 析 
它 除 了 可 以 更 好 地 学 习 网 络 编程 外 ， 还 有 如 下 好 处 : 


口 学 习 编 写 一 个 产品 级 的 函数 库 要 考虑 哪些 细节 。 





口 提 高 C 语 言 功底 。Libevent 源 码 中 使 用 了 大 量 的 函数 指针 ， 用 C 语 
言 实 现 了 多 态 机 制 ， 并 提供 了 一 些 基础 数据 结构 的 高 效 实现 ， 比 如 双 癌 





链表 、 最 小 堆 等 。 


Libevent 的 官方 网 站 是 http:Wlibevent.org/， 其 中 提供 Libevent 源 代码 
的 下 载 ， 以 及 学 习 Libevent 框 架 库 的 第 一 手 文档 ， 并 且 源 码 和 文档 的 更 
新 也 较为 频 楷 。 笔 者 写作 此 书 时 使 用 的 Libevent 版 本 是 该 网 站 于 2012 年 5 
月 3 日 发 布 的 2.0.19。 


12.2.1 一 个 实例 





分 析 一 球 软 件 的 源 代 码 ， 最 简单 有 效 的 方式 是 从 使 用 入 手 ， 这 样 才 
能 从 整体 上 把 握 该 软件 的 逻辑 结构 。 代 码 清单 12-1 是 使 用 Libevent 库 实 
现 的 一 个 “Hello World” 程 序 。 


代码 清单 12-1 ”Libevent 实 例 





#include=sys/signal.nh> 

#include<event.h> 

void signal cbl(int fd,short event,void*argc) 
{ 

struct event base*base=(event base*)argc; 
struct timeval delay={2,0}; 
































printf("Caught an interrupt signal;exiting cleanly in two 
seconds...\n"); 
event base loopexit (base, &delay); 





} 
void timeout cblint fd,short event,void*argc) 
{ 
printf ("timeout\n"); 

} 

int main () 

{ 

struct event base*base=event init(); 
struct 



































event*signal event=evsignal new(base,SIGINT,signal cb,base); 
event addl(signal event,NULL); 
timeval tv={1,0}; 
struct event*timeout event=evtimer newl(base,timeout cb,NULL); 
event add (timeout event, &tv); 
event base dispatch (base); 
event free (timeout event); 
event free(signal event); 
event base free (base); 


} 



































代码 清单 12-1 虽 然 人 简单， 但 却 基本 上 描述 了 Libevent 库 的 主要 人 逻 


1) 调用 event_init 疯 数 创 建 event_base 对 象 。 一 个 event_base 相 当 于 


一 个 Reactor 实 例 。 


2) 创建 具体 的 事件 处 理 器 ， 并 设置 它们 所 从 属 的 Reactor 实 例 。 
evsignal_new 和 evtimer_new 分 别 用 于 创建 信号 事件 处 理 器 和 定时 事件 处 
理 器 ， 它 们 是 定义 在 indude/event2/event.h 文 件 中 的 宏 








#define evsignal new (b,x,cb,arg)\ 
event new((b), (x),EV SIGNAL|EV PERSIST, (cb), (arg)) 
#defin vtimer newl(b,cb,arg)event new((b),-1,0, (cb), (arg)) 






































可 见 ， 它 们 的 统一 入 口 是 event_new 函 数 ， 即 用 于 创建 通用 事件 处 
理 器 (图 12-1 中 的 EventHandler) 的 函数 。 其 定义 是 : 





struct event*event new(struct event base*base,evutil socket t 
fd, short events,void(*cb) (evutil socket t,short,void*),void*arg) 








其 中 ，base 参 数 指定 新 创建 的 事件 处 理 器 从 属 的 Reactor。fd 参 数 指 
定 与 该 事件 处 理 器 关联 的 句柄 。 创 建 VO 事 件 处 理 器 时 ， 应 该 给 fd 参数 传 
递 文件 描述 符 值 ， 创 建 信号 事件 处 理 器 时 ， 应 该 给 fd 参数 传递 信号 值 ， 
比如 代码 清单 12-1 中 的 SIGINT; 创建 定时 事件 处 理 器 时 ， 则 应 该 给 fd 参 
数 传递 -1。events 参 数 指定 事件 类 型 ， 其 可 选 值 都 定义 在 
include/event2/event.h 文 件 中 ， 如 代码 清单 12-2 所 示 。 


代码 清单 12-2 ”Libevent 支 持 的 事件 类 型 

















































































































#define EV_TIMEOUT 0x01/* 定 时 事件 */ 

#define EV READ 0x02/x* 可 读 事件 */ 

#define EV WRITE 0x04/* 可 写 事件 */ 

#define EV SIGNAL 0x08/* 信 号 事件 */ 

#define EV_PERSIST 0x10/* 水 久 事 件 */ 

/* 边 沿 触 发 事件 ， 需 要 I/0o 复 用 系统 调用 支持 ， 比 如 epoll*/ 
#define EV ET 











代码 清单 12-2 中 ，EV_PERSIST 的 作用 是 : 事件 被 触发 后 ， 上 自动 重 
新 对 这 个 event 调 用 event_add 函 数 〈 见 后 文 ) 。 





cb 参数 指定 目标 事件 对 应 的 回调 函数 ， 相 当 于 图 12-1 中 事件 处 理 器 
的 handle_event 方 法 。arg 参 数 则 是 Reactor 传 递 给 回调 函数 的 参数 。 


event_new 了 水 数 成 功 时 返回 一 个 event 类 型 的 对 象 ， 也 就 是 Libevent 的 
事件 处 理 器 。Libevent 用 单词 “event”* 来 描述 事件 处 理 器 ， 而 不 是 事件 ， 
会 使 读者 觉得 有 些 混乱 ， 故 而 我 们 约定 如 下 : 








口 事件 指 的 是 一 个 句柄 上 绑 定 的 事件 ， 比 如 文件 描述 符 0 上 的 可 读 
事件 。 


口 事 件 处 理 器 ， 也 就 是 event 结 构 体 类 型 的 对 象 ， 除 了 包含 事件 必须 
具备 的 两 个 要 素 ( 句 柄 和 事件 类 型 ) 外， 还 有 很 多 其 他 成 员 ， 比 如 回调 
函数 。 





口 事件 由 事件 多 路 分 发 器 管理 ， 事 件 处 理 器 则 由 事件 队列 管理 。 事 
件 队列 包括 多 种 ， 比 如 event_base 中 的 注册 事件 队列 、 活 动 事件 队列 和 
通用 定时 器 队列 ， 以 及 evmap 中 的 IO 事件 队列 、 信 和 号 事件 队列 。 关 于 这 
些 事件 队 列 ， 我 们 将 在 后 文 依次 讨论 。 








口 事件 循环 对 一 个 被 激活 事件 〈 惑 绪 事 件 ) 的 处 理 ， 指 的 是 执行 该 
事件 对 应 的 事件 处 理 器 中 的 回调 函数 。 





3) 调用 event_add 函 数 ， 将 事件 处 理 器 添加 到 注册 事件 队列 中 ， 并 
将 该 事件 处 理 器 对 应 的 事件 添加 到 事件 多 路 分 发 器 中 。event_add 函 数 相 
当 于 Reactor 中 的 register_handler 方 法 。 


4) 调用 event_base_dispatch 函 数 来 执行 事件 循环 。 
5) 事件 循环 结束 后 ， 使 用 *_free 系 列 函 数 来 释放 系统 资源 。 


由 此 可 见 ， 代 码 清单 12-1 给 我 们 提供 了 一 条 分 析 Libevent 源 代码 的 
主线 。 不 过 在 此 之 前 ， 我 们 先 简单 介绍 一 下 Libevent 源 代码 的 组 织 结 


构 。 





12.2.2” 源 代码 组 织 结构 


Libevent 源 代码 中 的 目录 和 文件 按照 功能 可 划分 为 如 下 部 分 : 


口头 文件 目录 include/event2。 该 目录 是 自 Libevent 主 版 本 升级 到 2.0 
之 后 引入 的 ， 在 1.4 及 更 老 的 版 本 中 并 无 此 目录 。 该 目录 中 的 头 文 件 是 
Libevent 提 供给 应 用 程序 使 用 的 ， 比 如 ，event.h 头 文件 提供 核心 函数 ， 
http.h 头 文件 提供 HTTP 协议 相关 服务 ，mpc.h 头 文件 提供 远程 过 程 调用 文 


持 。 




















口 源码 根 目 录 下 的 头 文 件 。 这 些 头 文件 分 为 两 类 : 一 类 是 对 
include/event2 目 录 下 的 部 分 头 文件 的 包装， 另外 一 类 是 供 Libevent 内 部 
使 用 的 辅助 性 头 文件 ， 它 们 的 文件 名 都 具有 *-internal.h 的 形式 。 








口 通用 数据 结构 目录 compat/sys。 该 目录 下 仅 有 一 个 文件 一 一 
queue.h。 它 封装 了 跨 平 台 的 基础 数据 结构 ， 包 括 单 癌 链表 、 双 辐 链 表 、 
队列 、 尾 队列 和 循环 队列 。 





DQsample 目 录 。 它 提供 一 些 示例 程序 。 


Dtest 目 录 。 它 提供 一 些 测 试 代码 。 


口 WIN32-Code 目 录 。 它 提供 Windows 平 台 上 的 一 些 专用 代码 。 


口 event.c 文 件 。 访 文件 实现 Libevent 的 整体 框架 ， 主 要 是 event 和 
event_base 两 个 结构 体 的 相关 操作 。 





Ddevpoll.c、kqueue.c、evport.c、select.c、win32select.c、poll.c 和 
epoll.c 文 件 。 它 们 分 别 封装 了 如 下 VO 复 用 机 制 : /dev/poll、kqueue、 
event ports、POSIX select、Windows select、poll 和 epoll。 这 些 文件 的 主 
要 内 容 相 似 ， 都 是 针对 结构 体 eventop〈 见 后 文 ) 所 定义 的 接口 函数 的 具 
体 实 现 。 





Dminheap-internal.h 文 件 。 该 文件 实现 了 一 个 时 间 堆 ， 以 提供 对 定 
时 事件 的 支持 。 





Qsignal.c 文 件 。 它 提供 对 信号 的 支持 。 其 内 容 也 是 针对 结构 体 
eventop 所 定义 的 接口 函数 的 具体 实现 。 


Devmap.c 文 件 。 它 维护 句柄 (文件 描述 符 或 信号 ) 与 事件 处 理 器 
的 映射 关系 。 


Devent_tagging.c 文 件 。 它 提供 往 绥 冲 区 中 添加 标记 数据 (比如 一 
个 整数 ) ， 以 及 从 绥 冲 区 中 读 取 标记 数据 的 函数 。 





Devent_iocp.c 文 件 。 它 提供 对 Windows IOCP (Input/Output 
Completion Port， 输 入 输出 完成 端口 ) 的 文 持 。 


Dbuffer*.c 文 件 。 它 提供 对 网 络 W/O 缓 冲 的 控制 ， 包 括 : 输入 输出 数 
据 过 小 ， 传 输 速率 限制 ， 使 用 SSL (Secure Sockets Layer) 协议 对 应 用 
数据 进行 保护 ， 以 及 零 拷贝 文件 传输 等 。 


Devthread*.c 文 件 。 它 提供 对 多 线程 的 支持 。 

Dlistener.c 文 件 。 它 封装 了 对 监听 socket 的 操作 ， 包 括 监听 连接 和 接 
受 连 接 。 

Dlogs.c 文 件 。 它 是 Libevent 的 日 志 系 统 。 

Devutil.c、evutil_rand.c、strlcpy.c 和 arc4random.c 文 件 。 它 们 提供 一 


些 基 本 操作 ， 比 如 生成 随机 数 、 获 取 socket 地 址 信息 、 读 取 文 件 、 设 置 


socket 属 性 等 。 


Devdns.c、http.c 和 和 evrpc.c 文 件 。 它 们 分 别提 供 了 对 DNS 协 议 、 
HTTP 协 议和 RPC (Remote Procedure Call， 远 程 过 程 调用 ) 协议 的 文 


持 。 
Depoll_sub.c 文 件 。 该 文件 未 见 使 用 。 


在 整个 源码 中 ，event-internal.h、include/event2/event_struct.h、 
event.c 和 evmap.c 等 4 个 文件 最 为 重要 。 它 们 定义 了 event 和 event_base 结 
构 体 ， 并 实现 了 这 两 个 结构 体 的 相关 操作 。 下 面 的 讨论 也 主要 是 围绕 这 
族人 文件 展开 多 8 


12.2.3 ”event 结 构 体 


前 文 提 到 ，Libevent 中 的 事件 处 理 右 是 event 结 构 类 型 。event 结 构 体 
封装 了 句柄 、 事 件 类 型 、 回 调 函 数 ， 以 及 其 他 必要 的 标志 和 数据 。 该 结 
构 体 在 include/event2/event_struct.h 文 件 中 定义 : 





struct event 

{ 

TAILO ENTRY (event)ev active next; 
TAILO ENTRY (event)ev next; 
uniont{ 
TAILO ENTRY (event)ev next with common timeout; 
int min heap idx; 

}ev timeout pos; 

evutil socket t ev fq; 

struct event base*ev base; 

uniont{ 
structt{ 

TAILO ENTRY (event)ev io next; 
S 

} 

S 




































































truct timeval ev timeout; 
ev_ io; 
tructt 

TAILO ENTRY (event)ev signal next; 
short ev ncalls; 

short*ev pncalls; 

}ev signal; 















































}_ev; 

short ev events; 

short ev res; 

short ev flags; 

ev uint8 t ev pri; 

ev uint8 t ev closure; 


struct timeval ev timeout; 
void(*ev callback) (evutil socket t,short,void*arg); 
void*ev arg; 


}; 








下 面 我 们 详细 介绍 event 结 构 体 中 的 每 个 成 员 : 


Dev_events。 它 代表 事件 类 型 。 其 取 值 可 以 是 代码 清单 12-2 所 示 的 
标志 的 按 位 或 〈 互 斥 的 事件 类 型 除外 ， 比 如 读 写 事件 和 信和 号 事件 就 不 能 
同时 被 设置 )。 





Dev_next。 所 有 已经 注册 的 事件 处 理 器 (包括 W/O 事 件 处 理 器 和 信 
号 事件 处 理 器 ) 通过 该 成 员 串 联 成 一 个 尾 队 列 ， 我 们 称 之 为 注册 事件 队 
列 。 宏 TAILQ_ENTRY 是 尾 队列 中 的 节点 类 型 ， 它 定义 在 


compat/sys/queue.h 文 件 中 : 





#define TAILO ENTRY (type)\ 

struct{\ 

struct type*tqe next;\/* 下 一 个 元 素 */ 
struct type**tqe prev;\/* 前 一 个 元 素 的 地 址 */ 
} 



































Dev_active_next。 所 有 被 激活 的 事件 处 理 喜 通过 该 成 员 串 联 成 一 个 
尾 队 列 ， 我 们 称 之 为 活动 事件 队列 。 活 动 事件 队列 不 止 一 个 ， 不 同 优先 
级 的 事件 处 理 器 被 激活 后 将 锌 插入 不 同 的 活动 事件 队列 中 。 在 事件 循环 
中 ，Reactor 将 按 优先 级 从 高 到 低 人 吉 历 所 有 活动 事件 队列 ， 并 依次 处 理 其 
中 的 事件 处 理 器 。 


Dev_timeout_ pos。 这 是 一 个 联合 体 ， 筷 仅 用 于 定时 事件 处 理 需 。 
为 了 讨论 的 方便 ， 后 面 我 们 称 定时 事件 处 理 器 为 定时 器 。 老 版 本 的 
Libevent 中 ， 和 定时 器 都 是 由 时 间 堆 来 管理 的 。 但 开发 者 认为 有 时 候 使 用 
简单 的 链表 来 管理 定时 器 将 上 共有 更 局 的 效率 。 因 此 ， 新 版 本 的 Libevent 








就 引入 了 所 谓 “ 通 用 定时 器 ”的 概念 。 这 些 定 时 器 不 是 存储 在 时 间 堆 中 ， 
而 是 存储 在 尾 队 列 中 ， 我 们 称 之 为 通用 定时 器 队列 。 对 于 通用 定时 器 而 
言 ，ev_timeout_pos 联 合体 的 ev_next_with_common_timeout 成 员 指出 了 
该 定时 器 在 通用 定时 器 队列 中 的 位 置 。 对 于 其 他 定时 器 而 言 ， 
ev_timeout_pos 联 合体 的 min_heap_idx 成 员 指 出 了 该 定时 器 在 时 间 堆 中 的 
位 置 。 一 个 定时 器 是 否 是 通用 定时 器 取决 于 其 超时 值 大 小 ， 有 具体 判断 原 


则 请 读者 自己 参考 event.c 文 件 中 的 is_common_timeout 函 数 。 








口 ev。 这 是 一 个 联合 体 。 所 有 具有 相同 文件 描述 符 值 的 MO 事件 处 
理 器 通过 ev.ev_io.ev_io_next 成 员 串 联 成 一 个 尾 队 列 ， 我 们 称 之 为 IO 事 
件 队列 ; 所 有 有 共有 相同 信号 值 的 信号 事件 处 理 器 通过 
ev.eV_signal.ev_signal_next 成 员 串 联 成 一 个 尾 队 列 ， 我 们 称 之 为 信号 事 
件 队 列 。ev.ev_signalev_ncalls 成 员 指定 信号 事件 发 生 时 ，Reactor 需 要 执 
行 多 少 次 该 事件 对 应 的 事件 处 理 磺 中 的 回调 函数 。 


ev.ev_signal.ev_pncalls 指 针 成 员 要 么 是 NULL， 要 么 指 问 




















ev.ev_signal.ev_ncalls。 





在 程序 中 ， 我 们 可 能 针对 同一 个 socket 文 件 描述 符 上 的 可 读 / 可 写 事 
件 创建 多 个 事件 处 理 器 《它们 拥有 不 同 的 回调 函数 ) 。 当 该 文件 描述 符 
上 有 可 读 / 可 写 事件 发 生 时 ， 所 有 这 些 事 件 处 理 融 都 应 该 被 处 理 。 所 
以 ，Libevent 使 用 MO 事 件 队列 将 具有 相同 文件 描述 符 值 的 事件 处 理 器 组 
织 在 一 起 。 这 样 ， 当 一 个 文件 描述 符 上 有 事件 发 生 时 ， 事 件 多 路 分 发 需 











就 能 很 快 地 把 所 有 相关 的 事件 处 理 器 添加 到 活动 事件 队列 中 。 信 号 事件 
队列 的 存在 也 是 由 于 相同 的 原因 。 可 见 ，IO 事 件 队列 和 信和 号 事件 队列 
并 不 是 注册 事件 队列 的 细致 分 类 ， 而 是 男 有 用 人 处。 





Dev_fd。 对 于 LO 事件 处 理 器 ， 它 是 文件 描 述 符 值 ， 对 于 信号 事件 
处 理 器 ， 它 是 信和 号 值 。 


Dev_base。 该 事件 处 理 嚣 从属 的 event_base 实 例 。 
Dev_res。 它 记录 当前 激活 事件 的 类 型 。 


Dev_flags。 它 是 一 些 事 件 标 志 。 其 可 选 值 定 义 在 


include/event2/event_struct.h 文 件 中 : 

















+» 


#define EVLIST TIMEOUT 0x01/* 事 件 处 理 器 从 属于 通用 定时 器 队列 或 时 间 堆 
#define EVLIST INSERTED 0x02/* 事 件 处 理 器 从 属于 注册 事件 队列 */ 
#define EVLIST SIGNAL 0x04/* 没 有 使 用 */ 

#define EVLIST ACTIVE 0x08/* 事 件 处 理 器 从 属于 活动 事件 队列 */ 
#define EVLIST INTERNAL 0x10/* 内 部 使 用 */ 

#define EVLIST INIT 0x80/* 事 件 处 理 器 已 经 被 初始 化 */ 

#define EVL ST ALL (0xf000|0x9f) /* 定 义 所 有 标志 */ 














/ 






































































































































Dev_pri。 它 指定 事件 处 理 器 优先 级 ， 值 越 小 则 优先 级 越 高 。 


Dev_closure。 它 指定 event_base 执 行事 件 处 理 器 的 回调 函数 时 的 行 
为 。 其 可 选 值 定义 于 event-internal.h 文 件 中 : 





/* 默 认 行 为 */ 
#define EV CLOSURE NONE 0 
/x* 执 行 信号 事件 处 理 器 的 回调 函数 时 ， 调 用 ev.ev_signal.ev_ncal1s 次 该 回调 函数 */ 


















































#define EV CLOSURE SIGNAL ] 
/* 执 行 完 回调 函数 后 ， 再 次 将 事件 处 理 器 加 入 注册 事件 队列 中 */ 
#define EV CLOSURE PERSIST 2 







































































Dev_timeout。 它 仅 对 定时 右 有 效 ， 指 定 定 时 器 的 超时 值 。 


Dev_callback。 它 是 事件 处 理 器 的 回调 函数 ， 由 event_base 调 用 。 
回调 函数 被 调用 时 ， 它 的 3 个 参数 分 别 被 传 入 事件 处 理 器 的 如 下 3 个 成 


号 


员 : ev_fd、ev_res 和 ev_arg。 


Dev arg。 回 调 函 数 的 参数 。 


12.2.4” 往 注册 事件 队列 中 添加 事件 处 理 器 


前 面 提 到 ， 创 建 一 个 event 对 象 的 函数 是 event_new《〈 及 其 变 体 ) ， 
它 在 event.c 文 件 中 实现 。 该 函数 的 实现 相当 简单 ， 主 要 是 给 event 对 象 分 
配 内 存 并 初始 化 它 的 部 分 成 员 ， 因 此 我 们 不 讨论 它 。event 对 象 创建 好 之 
后 ， 应 用 程序 需要 调用 event_add 函 数 将 其 添加 到 注册 事件 队列 中 ， 并 将 
对 应 的 事件 注册 到 事件 多 路 分 发 器 上 。event_add 函 数 在 event.c 文 件 中 实 
现 ， 主 要 是 调用 另外 一 个 内 部 函数 event_add_internal， 如 代码 清单 12-3 
所 示 。 





代码 清单 12-3 ”event_add internal 函 数 





static inline int event add internal (struct event*ev,const struct 
timeval*tv,int tv is absolute) 


{ 











为 该 定时 器 有 





struct event base*base=ev->ev base; 







































































/* 如 果 新 添加 的 事件 处 理 器 是 定时 器 ， 

































































E 时 间 堆 上 预 留 一 个 位 置 */ 








int res=0; 

int notify=0; 

EVENT BASE ASSERT LOCKED (base); 

_event debug assert is setup (ev); 
event debugl\( 

"event _ add:event :sp (fd$d),$s$s$sscallgsp" 
eV 

(int)ev->ev fqd, 

ev->ev events&EV READ?"EV _ READ" :""， 
ev->ev events&EV WRITE?"EV WRITE" :"" 
ty "EV TIMROUT" eS, 

ev->ev callback)); 

EVUTIL ASSERT(! (ev->ev_ flags&~EVLIST _ALL)); 





























且 它 尚未 被 添加 到 通 重用 定时 器 队列 或 时 间 堆 中 ， 则 








if (tv!=NULL& &! (ev->ev 

































































EVL 





ST 工 





M 





_flags& EOUT) ) { 





if (min heap reserve(&base->timeheap, 































































































1+min heap size(&base-~>timeheap))==-1) 

return(-1); 

} 

/x* 如 果 当 前 调用 者 不 是 主线 程 〈 执 行事 件 循环 的 线程 ) ， 并 且 被 添加 的 事件 处 理 器 是 信和 号 
事件 处 理 器 ， 而 且 主 线程 正在 执行 该 信号 事件 处 理 器 的 回调 函数 ， 则 当前 调用 者 必须 等 待 主线 
程 完 成 调用 ， 人 否则 将 引起 竞 态 条 件 〈 考 虑 event 结 构 体 的 ev_ncal1s 和 ev pncal1s 成 员 ) */ 

#ifndef EVENT DISABLE THREAD SUPPORT 

if (base->current event=-=ev&& (ev->ev events&EV SIGNAL,) 

CIEVBASE IN THREAD (base) ) { 

++base- >current event waiters; 





























































































































































































































EVTHREAD COND WAIT (base-~>current event cond,base-~>th base lock); 
} 

#endif 

if((ev->ev events& (EV READ|EV WRITE|EV SIGNAL))&& 
! (ev->ev flags& (EVLIST 0 EVLIST ACTIVE) ) ) { 
if (ev->ev events& (EV READ|EV WRITE) ) 

/* 添 加 I/o 事 件 和 I/o 事 件 处 理 器 的 映射 关系 */ 

res=evmap io add(base,ev->ev fd,ev); 

lse if(ev->ev events&EV SIGNAL) 

/* 添 加 信号 事件 和 信和 号 事件 处 理 器 的 映射 关系 */ 

res=evmap signal aqd (base (int)ev->ev fd,ev); 
(Sd) 

/* 将 事件 处 理 器 插入 注册 事件 队列 */ 
event es insert (base,ev,EVLIST INSERTED); 





if (res== 











放 军 伯 多 路 分 发 器 中 添加 了 新 的 事件 ， 所 以 要 通知 主线 程 */ 





noti 
res=0; 
} 
} 


fy=1; 








/* 下 国 














| 将 











事件 处 理 




















时 器 ， 则 始终 应 该 添加 之 */ 


二 下 





S 


int common 


/* 对 于 永久 性 











(res! 











:事件 处 到 


timeo 




















器 添加 至 通 
处 理 器 ， 根 据 evmap_*_add 函 数 的 结果 诀 定 是 否 添加 《这 


























j 定 时 器 队列 或 时 间 扒 中 。 对 于 信号 事件 处 























如 和 





/oO 事件 











1&&tv!=NULL) { 
truct timeval now; 
Ut; 
器 ， 如 果 




















超时 时 间 不 是 绝对 
记录 在 变量 sv->ev_ io _ timeout 中 。ev_ io timeou 








这 是 为 了 给 事件 设置 超时 ) 

















器 的 








时 间 ， 则 将 该 事件 处 



































































































































t 是 定义 在 event-internal. 


而 对 于 定 


超时 时 间 


h 文 件 


中 的 宏 : #define ev _ io timeout ev.ev io.ev timeout*/ 
if (ev->ev closure==EV CLOSURE PERSIST&&!tv is absolute) 
ev->ev io timeout=*tyv; 
/* 如 果 该 事件 处 理 器 已 经 被 插入 通用 定时 器 队列 或 时 间 堆 中 ， 则 先 删除 它 */ 
if (ev->ev flags&EVLIST TIMEOUT){ 
if(min heap elt is top (ev)) 
notify=1; 
event queue remove (base,ev,EVLIST TIMEOUT); 
如 果 待 添加 的 事件 处 理 器 已 经 被 激活 ， 且 原因 是 超时 ， 则 从 活动 事件 队列 中 删除 它 ， 以 











































































































避免 其 回调 函数 被 执行 。 对 于 信和 号 事件 处 理 器 ， 必 要 时 还 需 将 其 ncal1s 成 员 设置 为 0 
ev_pncalls 如 果 不 为 NULL， 它 指向 ncalls) 。 前 面 提 到 ， 信 号 事件 被 触发 时 ，ncalls 指 
其 回调 函数 被 执行 的 次 数 。 将 ncalls 设 置 为 0， 可 以 干净 地 终止 信号 事件 的 处 理 */ 

if((ev->ev flags&EVLIST ACTIVE)&& 

(ev->ev res&EV TIMEOUT) ) { 

if (ev- >ev events&EV SIGNAL) { 

if (ev- >ev nca ls&&ev->ev _pncalls) { 

*ev->ev pncalls=0; 

} 

} 

event queue remove (base,ev,EVLIST ACTIVE); 


} 





gett 


ime (base, &now); 




















common timeout=is common timeout (tv,base); 











1 


if 


ev->ev timeout= 





/* 判 断 应 该 将 定时 器 提 


}else if (common 











tv is absolute) { 
eV 
入 通 


timeo 




















ut) { 


struct timeval tmp=*tv; 


tmp.tyv 
evutil 





usec&=M 








CROS 











Vv->ev timeout.tv usec|= 


(tv->tv usec&~M 


}elself 


/* 加 上 当前 系统 时 间 ， 








CROS 








以 取得 





定时 器 队列 ， 


还 是 插入 时 间 堆 */ 





ECONDS MASK; 
timeradd (&now, &tmp, &ev->ev timeout); 


ECONDS MASK); 


定时 器 超时 的 绝对 时 间 */ 


evutil timeradd(&now,tv, &ev->ev timeout); 


} 


event debugl\( 


"even 
(ijnt)t 





t add:timeout in%d seconds,callsp", 
VvV->tv_ sec,ev->ev callback)); 








event queue insert (base,ev,EVLIST TIMEOUT) ; /* 最 后 ， 插 入 定时 器 */ 
/* 如 有 果 被 插入 的 事件 处 理 器 是 通用 定时 器 队列 中 的 第 一 个 元 素 ， 则 通过 调用 
common timeout _schedule 函 数 将 其 转移 到 时 间 堆 中 。 这 样 ， 通 用 定时 器 链表 和 时 间 堆 中 
的 定时 器 就 得 到 了 统一 的 处 理 */ 
if (common 七 imeout) { 
struct common timeout list*ctl= 
get common timeout list (base, &ev->ev timeout); 
if (ev==TAILQO FIRST(&ctl->events))t{ 
common timeout _ schedule (ctl, &now,ev); 
} 
}elsel{ 
if(min heap elt is top (ev)) 
notify=1; 
} 
} 
/* 如 果 必 要 ， 唤 醒 主 线程 x/ 
if (res!=-1&&notify&&EVBASE NEED NOTIFY (base)) 
evthread notify base (base); 
_event debug note addl(ev); 
return (res); 


} 







































































































































































从 代码 清单 12-3 可 见 ，event_add_internal 函 数 内 部 调用 了 几 个 重要 
的 函数 : 


Devmap_io_add。 该 函数 将 MO 事件 添加 到 事件 多 路 分 发 右 中 ， 并 
将 对 应 的 事件 处 理 器 添加 到 IO 事件 队列 中 ， 同 时 建立 MO 事件 和 IO 事件 
处 理 絮 之 间 的 映射 关系 。 我 们 将 在 下 一 节 详 细 讨 论 该 函数 。 





Devmap_signal_ add。 该 函数 将 信号 事件 添加 到 事件 多 路 分 发 占 
中 ， 并 将 对 应 的 事件 处 理 器 添加 到 信号 事件 队列 中 ， 同 时 建立 信号 事件 
和 信和 号 事件 处 理 器 之 间 的 映射 关系 。 





Devent_queue_insert。 该 函数 将 事件 处 理 吉 添加 到 各 种 事件 队列 


中 : 将 MO 事件 处 理 右 和 信号 事件 处 理 喜 插入 注册 事件 队列 ;将 定时 器 
插入 运用 定时 器 队列 或 时 间 堆 ， 将 被 激活 的 事件 处 理 器 添加 到 活动 事件 
队列 中 。 其 实现 如 代码 清单 12-4 所 示 。 


代码 清单 12-4 event_queue_insert 函 数 





static void event queue insert (Struct event base*base,struct 
event*ev,int queue) 
{ 
EVENT BASE ASSERT LOCKED (base); 
/* 避 免 重复 插入 */ 
if(ev->ev flags&adqueue) { 
/*Double insertion is possible for active events*/ 













































































if (queue&EVLIST ACTIVE ) 

return; 

event errx(1,"%$s:%Sp (fd%sd)already on queue®%x", func ,ev,ev-> 
ev fd,queue); 

return; 


} 

if (~ev->ev flags&EVLIST INTERNAL) 

base->>event count++;/* 将 event base 拥 有 的 事件 处 理 器 总 数 加 1*/ 
ev->ev flags|=queue; ; /x 标 记 此 事件 已 被 添加 过 */ 

switch (queue) { 

/x* 将 IVo 事 件 处 理 器 或 信号 事件 处 理 器 插入 注册 事件 队列 */ 

case EVLIST INSERTIED : 

TAILO INSERT TAIL(&base->eventqueue,ev,ev next); 






































































































































/* 将 束 绪 事件 处 理 器 插入 活动 事件 队列 */ 
case EVLIST ACTIVE: 
base->event count activett+; 

TAILO NSERT TAIL(&base->activ queues[lev->ev pril], 
ev,ev active next); 

break; 
/* 将 定时 器 插入 通用 定时 器 队列 或 时 间 堆 */ 

case EVLIST TIMEOUT:{ 

if(is common timeout (&ev->ev timeout,base)){ 
struct common timeout list*ctl1= 

get common timeout list(base, &ev->ev timeout); 
insert common timeout inorder (ctl,ev); 

}else 

min heap push(&base-~>timeheap,ev); 

break; 





































































































} 

default: 

event errx(1l,"%$s:unknown queuesx", func ,queue); 
} 

} 











12.2.5 往事 件 多 路 分 发 器 中 注册 事件 


event_queue_insert 函 数 所 做 的 仅仅 是 将 一 个 事件 处 理 器 加 入 
event_base 的 某 个 事件 队列 中 。 对 于 新 添加 的 IO 事件 处 理 器 和 信和 号 事件 
处 理 莫 ， 我 们 还 需要 让 事件 多 路 分 发 如 来 监听 其 对 应 的 事件 ， 同 时 建立 
文件 描述 符 、 信 号 值 与 事件 处 理 器 之 间 的 映射 关系 。 这 就 要 通过 调用 
evmap_io_add 和 evmap_signal_add 两 个 函数 来 完成 。 这 两 个 函数 相当 于 
事件 多 路 分 发 器 中 的 register_event 方 法 ， 它 们 由 evmap.c 文 件 实现 。 不 过 
在 讨论 它们 之 前 ， 我 们 先 介 绍 一 下 它们 将 用 到 的 一 些 重 要 数据 结构 ， 如 
代码 清单 12-5 所 示 。 














代码 清单 12-5 evmap_io、event_io_map 和 evmap_signal、 


evmap_signal_ map 











#ifdef EVMAP USE HT 

#include"ht-internal.h" 

struct event map entry; 

/* 如 果 定 义 了 EVMAP USE HT， 则 将 event io _ map 定义 为 哈 希 表 。 该 哈 希 表 存 储 
event map_ entry 对 象 和 I/o 事 件 队列 ( 见 前 文 ， 具 有 同样 文件 描述 符 值 的 I/o 事 件 处 理 器 构 
成 I/o 事 件 队列 ) 之 间 的 映射 关系 ， 实 际 上 也 就 是 存储 了 文件 描述 符 和 I/o 事 件 处 理 器 之 间 的 映 
射 天 系 */ 

HT HEAD(event io map,event map _ entry) ， 

#else/* 人 否则 event_io_map 和 下 面 的 event _signal _ map 一样 */ 

#define event io map event signal map 

#endif 








































































































/* 下 面 这 个 结构 体 中 的 entzies 数 组 成 员 存 储 信 号 值 和 信号 事件 处 理 器 之 间 的 映射 关系 
(用 信号 值 索引 数组 entries 即 得 到 对 应 的 信号 事件 处 理 器 〉*/ 

struct event signal map{ 

void**entries;/* 用 于 存放 evmap _ io 或 evmap signal 的 数组 */ 

int nentries;/*entries 数 组 的 大 小 */ 















































}; 

/* 如 果 定 义 了 EVMAP _ USE HT， 则 哈 希 表 event io map 中 的 成 员 具 有 如 下 类 型 */ 
struct event map entryt{ 

HT ENTRY (event map entry)map node; 

evutil socket t fd; 

uniont{ 

struct evmap io evmap io; 

}ent; 

}; 

/*event list 是 由 event 组 成 的 尾 队 列 ， 前 面 讨论 的 所 有 事件 队列 都 是 这 种 类 型 */ 
TAILO HEAD (event list,event),; 

/*I/0 事 件 队 列 ( 确 切 地 说 ，evmap io.events 才 是 I/o 事 件 队 列 ) */ 


struct evmap iol{ 





















































Dstruct event list events; 


Dev uint16 t nread; 


Dev uint16 t nwrite: 











}; 

/* 信 号 事件 队列 (确切 地 说 ，evmap _ signal.events 才 是 信号 事件 队列 ) */ 
struct evmap signall 

struct event list events; 


}; 

















由 于 evmap_io_add 和 evmap_signal_add 两 个 函数 的 逻辑 基本 相同 ， 
因此 我 们 仅 讨 论 evmap_io_add 函 数 ， 如 代码 清单 12-6 所 示 。 


代码 清单 12-6 evmap_io_add 函 数 











int evmap io add(struct event base*base,evutil Socket t fqd,struct 


event*ev) 


{ 








/* 获 得 event base 的 后 端 T/0 复 用 机 制 实例 */ 
const struct eventop*evsel=base->evsel; 


/* 获 得 event_base 中 文件 描述 符 与 I/o 事 件 队列 的 映射 表 《〈 哈 希 表 或 数组 ) */ 






































struct event io map*io=&base->io; 
/*fd 参 数 对 应 的 I/o 事 件 队 列 */ 


struct evmap io*ctx=NULL; 





int nread,nwrite,retval=0; 
Short res=0,old=0; 














struct event*old ev; 
EVUTIL ASSERT (fd==ev->ev fd); 





























if (fd=0) 


return 0; 





非 宇 让 放 癌 名 


EVMAP USE HT 









































/*I/0 事 件 队 列 数组 io .entries 中 ， 每 个 文件 描述 符 占用 一 项 。 如 果 fd 大 于 当前 数组 的 
大 小 ， 则 增加 数组 的 大 小 “扩大 后 的 数组 的 容量 要 大 于 fda) */ 
































if (fd>=io->nentries)f{ 








if (evmap make space (io,fd,sizeo 











(struct evmap io*))==-1) 


return(-1); 


} 


#endif 








/* 下 面 这 











个 宏 根据 EVMAP USE HT 是 否 被 定义 而 有 不 同 的 实现 ， 但 目的 都 是 创建 ctx， 在 














映射 表 io 中 为 f9 和 ctx 添 加 映射 关系 */ 




















GET IO SLOT AND CTOR (ctx,io,fd,evmap io,evmap io init,evsel-> 

















fdinfo len); 


nread=ctx- 和 nread; 













































































nwrite=ctx-~>nwrite; 

if (nread) 

old|=EV READ; 

if (nwrite) 

old|=EV WRITE; 

if (ev->ev events&EV READ) { 
if (++nread==1) 

res|=EV READ; 

} 

if (ev->ev events&EV WRITE)T{ 
if (++nwrite==1) 

res|=EV WRITE; 


























f (EVUT 














L UNLIKELY (nread>0xffff||nwrite>O0xffff)) 1 















































event warnx("Too many events reading or writing on fd%d", 
(int) fqd); 
return-1; 














if (EVENT_D 











BUG MODE IS ON()&& 





工 























(old ev=TAILQO FIRST(&ctx->events))&& 























(0ld ev->ev events&FEV FT)!=(ev->ev events&EV ET)){ 

event warnx("Tried to mix edge-triggered and non-edge-triggered" 

"events on fd%d", (int) fqd); 

return-1; 

} 

if(res)t 

void*extra=( (char*)ctx)+sizeof (struct evmap io); 

/x 往 事件 多 路 分 发 器 中 注册 事件 。adqq 是 事件 多 路 分 发 器 的 接口 函数 之 一 。 对 不 同 的 后 端 
I/O 复 用 机 制 ， 这 些 接口 函数 有 不 同 的 实现 。 我 们 将 在 后 面 讨论 事件 多 路 分 发 器 的 接口 函数 */ 
if (evsel->add(base,ev->ev fqd, 
old, (ev->ev events&EV ET) |res,extra)==-1) 
return(-1); 
retval=1; 

} 
ctx-~>nread= (ev uint16 t)nread; 
ctx-~>nwrite=(ev uint16 t)nwrite; 

/* 将 ev 插 到 I/o 事 件 队 列 ctx 的 尾部 。ev_io _next 是 定义 在 event-internal.h 文 件 中 
的 宏 : #define ev io next ev.ev io.ev io next*/ 

TAILO NSERT TAIL(&ctx->events,ev,ev io next); 

return (retval); 


} 























































































































12.2.6 ”eventop 结 构 体 


eventop 结 构 体 封装 了 LIO 复 用 机 制 必要 的 一 些 操 作 ， 比 如 注册 事 
件 、 等 待 事件 等 。 它 为 event_base 文 持 的 所 有 后 端 VO 复 用 机 制 提供 了 一 
个 统一 的 接口 。 该 结构 体 定义 在 event-internal.h 文 件 中 ， 如 代码 清单 12-7 
所 示 。 





代码 清单 12-7 ”eventop 结 构 体 





struct eventoplt 

/* 后 端 I/O 复 用 技术 的 名 称 */ 

const char*name; 

/* 初 始 化 函数 */ 

void*(*init) (struct event base*); 


/* 注 册 事 件 */ 





int (*add) (struct event base*,evutil] socket 七 fdq, Short old,short 
events,void*fdinfo); 

/* 删 除 事 件 */ 

int (*del) (struct event base*,evutil socket 七 fdq, Short old,short 
events,void*fdinfo); 

/* 等 待 事件 */ 

int (*dispatch) (struct event base*,struct timeval*); 

/* 释 放 I/O 复 用 机 制 使 用 的 资源 */ 

void(*dealloc) (struct event base*); 

/* 程 序 调用 fork 之 后 是 人 否 需 要 重新 初始 化 event_base*/ 

int need reinit; 
/*I/0 复 用 技术 支持 的 一 些 特性 ， 可 选 如 下 3 个 值 的 按 位 或 ，EV_FEATURE_ET〈 文 持 边 沿 
触发 事件 EV ET) 、EV _FEATURE 01 (事件 检测 算法 的 复杂 度 是 0 (1)) 和 
EV_FERATURE FDS《〈 不 仅 能 监听 socket 上 的 事件 ， 还 能 监听 其 他 类 型 的 文件 描述 符 上 的 事 
件 ) */ 

enum event method feature features; 

/x* 有 的 I/o 复 用 机 制 需要 为 每 个 I/o 事 件 队列 和 信号 事件 队列 分 配额 外 的 内 存 ， 以 避免 同 
一 个 文件 描述 符 被 重复 插入 I/o 复 用 机 制 的 事件 表 中 。evmap_io add (或 evmap io del) 
函数 在 调用 eventop 的 add 或 del) 方法 时 ， 将 这 段 内 存 的 起 始 地 址 作为 第 5 个 参数 传递 给 
add《〈 或 aeI) 方法 。 下 面 这 个 成 员 则 指定 了 这 段 内 存 的 长 度 */ 

size 七 fdinfoe,. Len; 


}; 































































































































































































































































































前 文 提 到 ，devpoll.c、kqueue.c、evport.c、select.c、win32select.c、 
poll.c 和 epoll.c 文 件 分 别针 对 不 同 的 MO 复 用 技术 实现 了 eventop 定 义 的 这 
套 接口 。 那 么 ， 在 支持 多 种 VO 复 用 技术 的 系统 上 ，Libevent 将 选择 使 用 
哪个 呢 ? 这 取决 于 这 些 VO 复 用 技术 的 优先 级 。Libevent 支 持 的 后 端 /O 
复 用 技术 及 它们 的 优先 级 在 event.c 文 件 中 定义 ， 如 代码 清单 12-8 所 示 。 


代码 清单 12-8 ”Libevent 支 持 的 后 端 /O 复 用 技术 及 它们 的 优先 级 




















#ifdef EVENT HAVE EVENT PORTS 

extern const struct eventop evportops; 
#endif 
#ifdef EVENT HAVE SELECT 

extern const struct eventop selectops; 
#endif 
#ifdef EVENT HAVE POLL 

































































extern const struct eventop pollops; 
#endif 
#ifdef EVENT HAVE EPOLL 

extern const struct eventop epollops; 
#endif 
#ifdef EVENT HAVE WORKING KQUEUE 
extern const struct eventop kqops; 
#endif 
#ifdef EVENT HAVE DEVPOLL 

extern const struct eventop devpollops; 
#endif 
#ifdef WIN32 









































































































































































































































extern const struct eventop win32ops; 
#endif 

static const struct eventop*eventops[]={ 
#ifdef EVENT HAVE EVENT PORTS 
&evportops， 

#endif 

#ifdef EVENT HAVE WORKING KQUEUE 
&kqops, 

#endif 

#ifdef EVENT HAVE EPOLL 

Qepollops, 

#endif 

#ifdef EVENT HAVE DEVPOLL 


























&devpollops, 























#endif 
#ifdef EVENT HAVE POLL 
&pollops, 

#endif 











#ifdef EVENT HAVE SELECT 
&selectops， 












































#endif 
#ifdef WIN32 
CQwin32ops, 
#endif 

NULL 


}; 








Libevent 通 过 裔 历 eventops 数 组 来 选择 其 后 端 VO 复 用 技术 。 裔 历 的 
顺序 是 从 数组 的 第 一 个 元 素 开 始 ， 到 最 后 一 个 元 素 结 束 。 所 以 ， 在 
Linux 下，Libevent 上 默认 选择 的 后 端 W/O 复 用 技术 是 epoll。 但 很 显然 ， 用 





户 可 以 修改 代码 清单 12-8 中 定义 的 一 系列 宏 来 选择 使 用 不 同 的 后 端 VO 复 
用 技术 。 


12.2.7 event _ base 结构 体 


结构 体 event_base 是 Libevent 的 Reactor。 它 定义 在 event-internal.h 文 


件 中 ， 如 代码 清单 12-9 所 示 。 


代码 清单 12-9 event_base 结 构 体 





struct event basel{ 

/* 初 始 化 Reactor 的 时 候选 择 一 种 后 端 1/0 复 用 机 制 ， 并 记录 在 如 下 字段 中 */ 

const struct eventop*evsel; 

/* 指 向 I/0 复 用 机 制 真正 存储 的 数据 ， 它 通过 evsel 成 员 的 init 函 数 来 初始 化 */ 

void*evbase; 

/* 事 件 变化 队列 。 其 用 途 是 : 如 果 一 个 文件 描述 符 上 注册 的 事件 被 多 次 修改 ， 则 可 以 使 用 
(比如 epoll_ct1) 。 它 仅 能 用 于 时 间 复 杂 度 为 o (1) 的 I/o 复 用 技 
Cx/ 

struct event changelist changelist; 

/* 指 向 信号 的 后 端 处 理 机 制 ， 目 前 仅 在 singal .nh 文件 中 定义 了 一 种 处 理 方 法 */ 

const struct eventop*evsigsel; 

/* 信 号 事件 处 理 器 使 用 的 数据 结构 ， 其 中 封装 了 一 个 由 socketpPaiz 创 建 的 管道 。 它 用 于 

Rh 

struct evsig info sig 

/* 添 加 到 该 event _base 的 虚拟 事件 、 所 有 事件 和 激活 事件 的 数量 */ 

int virtual event count; 

int event count; 

int event count active; 

/* 是 否 执行 完 活动 事件 队列 上 剩余 的 任务 之 后 就 退出 事件 循环 */ 

int event gotterm; 

/* 是 否 立 即 退 出 事件 循环 ， 而 不 管 是 否 还 有 任务 需要 处 理 */ 

int event break; 

/* 是 否 应 该 启动 一 个 新 的 事件 循环 */ 

int event continue; 

/* 目 前 正在 处 理 的 活动 事件 队列 的 优先 级 */ 

int event 0 PELOrELLY: 


/* 事 件 循 环 是 否 已 经 启动 */ 



















































































































































































int running loop; 

/* 活 动 事件 队列 数组 。 索 引 值 越 小 的 队列 ， 优 先 级 越 高 。 高 优先 级 的 活动 事件 队列 中 的 事 
件 处 理 器 将 被 优先 处 理 */ 

struct event list*activequeues; 

/* 活 动 事件 队 列 数 组 的 大 小 ， 即 该 event base 一 共有 nactivequeues 个 不 同 优先 级 的 
活动 事件 队列 */ 

int nactivequeues; 

/* 下 面 3 个 成 员 用 于 管理 通用 定时 器 队列 */ 

struct common timeout list**common timeout queues; 

int n common timeouts; 

int n common timeouts allocated; 


/* 存 放 延 迟 回调 函数 的 链表 。 事 件 循环 每 次 成 功 处 理 完 一 个 活动 事件 队列 中 的 所 有 事件 之 




























































































































































































































































































后 ， 束 调用 一 次 延迟 回调 函数 */ 
struct deferred cb queu r queue; 
/* 文 件 描述 符 和 工 /O 重 件 之 癌 的 喘 财 关 素 肝 ， 
struct event io map io; 
/* 信 号 值 和 信号 事件 之 间 的 映射 关系 表 */ 
struct event signal map sigmap; 
/x* 注 册 事 件 队列 ， 存 放 I/o 事 件 处 理 器 和 信和 号 事件 处 理 器 */ 
struct event list eventqueue; 
/* 时 间 堆 */ 
struct min heap timeheap; 
/* 管 理 系统 时 间 的 一 些 成 员 */ 
struct timeval event tyv; 
struct timeval tv cache; 
#if defined( EVENT HAVE CLOCK GETTIME) & &defined (CLOCK MONOTONIC) 
struct timeval tv clock diff; 
time t last updated clock diff; 
#endif 





/* 多 线程 文 持 */ 

#ifndef EVE 'NT DISABLE THREAD SUPPORT 

unsigned long th owner id;/* 当 前 运行 该 event base 的 事件 循环 的 线程 */ 

void*th base lock; /* 对 event base 的 独占 锁 */ 

/* 当 前 事件 循环 正在 执行 哪个 事件 处 理 器 的 回调 函数 */ 

struct event*current event; 

/* 条 件 变量 〈 见 第 14 章 ) ， 用 于 唤醒 正在 等 待 某 个 事件 处 理 完 毕 的 线程 */ 

void*current event condgd; 

int current event waiters;/* 等 待 current event cond 的 线程 数 */ 

#endif 

#ifdef WIN32 

struct event iocp port*iocp; 

#endif 

/* 该 event ee 

enum event base confi lag fladgs: 

/* 下 面 i 这 组 成 员 变 量 给 工作 线程 唤醒 主线 程 提 供 了 方法 (使 用 socketpair 创 建 的 管道 ) 
be 

int is notify pending; 

evutil socket t th notify fqd[2]; 
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struct event th notify; 








int (*th notify 


1 








i 








(struct event base*base); 





12.2.8 ”事件 循环 


最 后 ， 我 们 讨论 一 下 Libevent 的 “动力 ”， 即 事件 循环 。Libevent 中 实 


现 事 件 循 环 的 函数 是 event_base_loop。 


器 的 事件 监听 函数 ， 
event_base_loop 函 数 的 实现 如 代码 清单 12-10 所 示 。 


以 等 


行事 件 ; 


该 函数 首先 调用 IO 事件 多 路 分 发 


当 有 事件 发 生 时 ， 就 依次 处 理 之 。 


代码 清单 12-10 event_base_loop 函 数 








int event base loop(struct event base*base,int flags) 


{ 


Const S 





STtruct 











号 七 工 UC 





int res,done,re 
,ACQU 
A * 一 个 event _base 仅 允许 运行 一 个 事件 循环 */ 














EVBASE 














RE 





Lv’ 











tv_p; 
tval=0; 
LOCK (base,th base lock); 


truct eventop*evsel=base->evsel; 
timeval 
timeval* 





if (base-~>running loop)t 


event warnx ("$s:reentrant J OY one event base loop" 
"can run on each event base at once. func ); 








EVBASE 





R 





ELE 





‘ASE 














eltarEn= 


} 


base-~>>running loop=1; 


1 





clear time cache (base); 
/* 设 置信 和 号 事件 的 event _base 实 例 */ 











evsig s 
done=0;，; 
#ifndef 











会 





A 











EVE 





'NT D 





SA 














BLE THR 





base-— >thn owner id=EVTHR 


#endif 














EAD 


GO 




















CR (a rth a Loc 
/* 标 记 该 event base 已 经 开始 运行 */ 
青 除 sevent_base 的 系统 时 间 缓存 */ 


if (base->sig. ev signal added&&base->sig.ev n signals added) 
t base (base); 


EAD SUPPORT 
ET 


D(); 


base->event gotterm=base->event break=0; 


while(!ldqone){ 
base->event continue=0; 





break; 
} 





break; 
} 





tv p= Qtv; 





六 





if (base->event _ gotterm) { 


if (base->event _ break) { 

















if(!IN _ ACTIVE CALLBACKS (base) 





QE! (flag 























s&EVLOOP NONBLOCK) ) { 
/* 获 取 时 间 堆 上 堆 顶 元 素 的 超时 值 ， 即 /0 复 用 系统 i 











timeout next (base, &tv p); 


}elself 


/* 如 果 有 就 绪 事 件 尚未 处 理 ， 则 将 I/o 复 用 系统 调用 的 i 















































timeout correct (base, &tv) ;/* 校 准 系 统 时 间 */ 











调用 直接 返回 ， 程 序 也 就 可 以 立即 处 理 就 绪 事 件 了 */ 


evVutil timerclear (&tv); 





} 


/* 如 果 event base! 


























! 没 有 注册 任何 事件 ， 则 直接 退出 事件 循环 */ 


if(!levent haveevents (base) &&!N ACTIVE CALLBACKS (pase) ) { 





























event debug(("%s:no events registered.", func )); 


retval=1; 





goto done; 


} 
/* 更 新 系统 


时 间 ， 并 清空 





时 间 缓 存 */ 





gettime (base, &base->event tv); 
clear time cache (base); 





/* 调 用 事件 


多 路 分 发 器 的 qi spatch 方 法 等 竺 事件， 将 就 绪 事 件 插入 活动 事 伯 











res=evsel-~>dispatch (base,tv p); 





if (res==— 


event debug(("%s:dispatch returned unsuccessfully." 


工 ) { 


retval=-1;} 





goto done; 


} 


update time cache (base) ;/x* 将 时 间 缓 存 更 








r 





/* 检 查 时 间 淮 下 隐 到 其 事件 并 供 次 执行 之 */ 


timeout process (base); 

















if(N ACT 











/* 调 用 event 


int n=eve 





























VE CALLBACKS (base) ) { 
process_active 畏 数 依次 处 至 
nt process _ active (base); 




















VE CALLBACKS (base)== 











if((flags&EVLOOP ONCE) 
& EN ACT 

& &n!=0) 

done=1，} 

}else if (flags& 
done=1，} 





} 


EVLOOP NONBLOCK) 





























就 绪 的 信号 事件 和 1I 











新 为 当前 系统 时 间 */ 


/0 事件 */ 


于 用 本 次 应 该 设置 的 超时 值 x/ 


馈 时 时 间 \ 置 0”。 这 样 I/0 复 用 系统 





FE 队列 */ 





event debug(("%s:asked to terminate loop.", func )); 
done: 

/* 事 件 循环 结束 ， 清 空 时 间 缓 存 ， 并 设置 停止 循环 标志 
clear time cache (base); 
base-~>running loop=0; 

EVBASE RELEASE LOCK(base,th base lock); 


return (retval); 


} 



































至 此 ， 我 们 简要 介绍 了 Libevent 库 的 核心 代码 ， 但 这 些 还 远 远 不 
够 。 要 理解 Libevent 的 设计 理念 以 及 实现 上 的 细 市 考虑 ， 读 者 最 好 上 自己 
深入 分 析 其 每 一 行 代码 。 


第 13 草 ”多 进程 编程 


蝶 


Tbs 


进程 是 Linux 操 作 系 统 环境 的 基础 ， 它 控制 着 系统 上 几乎 所 有 的 活 


。 本 章 从 系统 程序 员 的 角度 来 讨论 Linux 多 进程 编程 ， 包 括 如 下 内 


口 复 制 进程 映像 的 fork 系 统 调 用 和 蔡 换 进程 映像 的 exec 系 列 系统 调 


口 僵尸 进程 以 及 如 何 避 免 僵 尸 进程 。 


口 进程 间 通 信 (Inter-Process Communication，IPC) 最 简单 的 方 


管道 。 


口 3 种 System V 进 程 间 通信 方式 : 信号 量 、 消 息 队 列 和 共 且 内存 。 


它们 都 是 由 AT&T System V2 版 本 的 UNIX 引 入 的 ， 所 以 统称 为 System V 


IPC。 


口 在 进程 间 传 递 文 件 描述 符 的 通用 方法 : 通过 UNIX 本 地 域 socket 传 


递 特殊 的 辅助 数据 《〈 关 于 辅助 数据 ， 参 考 5.8.3 小 节 ) 。 


13.1 fork 系 统 调 用 


Linux 下 创建 新 进程 的 系统 调用 是 fork。 其 定义 如 下 : 


#include=<=sys/types.h> 
#include=<=unistd.n> 
pid 七 fork(void); 




















该 函数 的 每 次 调用 都 返回 两 次 ， 在 父 进 程 中 返回 的 是 子 进程 的 
PID， 在 子 进程 中 则 返回 0。 该 返回 值 是 后 续 代 码 判断 当前 进程 是 父 进程 
还 是 子 进程 的 依据 。fork 调 用 失败 时 返回 -1， 并 设置 errno。 





fork 函 数 复制 当前 进程 ， 在 内 核 进 程 表 中 创建 一 个 新 的 进程 表 项 。 
新 的 进程 表 项 有 很 多 属性 和 原 进 程 相同 ， 比 如 堆 指 针 、 栈 指针 和 标志 寄 
存 需 的 值 。 但 也 有 许多 属性 被 赋予 了 新 的 值 ， 比 如 该 进程 的 PPID 被 设置 
成 原 进程 的 PID， 信 号 位 图 被 清除 〈 原 进程 设置 的 信号 处 理 函 数 不 再 对 
新 进程 起 作用 ) 。 














子 进程 的 代码 与 父 进程 完全 相同 ， 同 时 它 还 会 复制 父 进程 的 数据 
〈 扒 数据 、 栈 数据 和 静态 数据 ) 。 数 据 的 复制 采用 的 是 所 谓 的 写 时 复制 
(copy on writte) ， 即 只 有 在 任 一 进程 《 父 进程 或 子 进程 ) 对 数据 执行 
了 写 操作 时 ， 复 制 才 会 发 生 ( 先 是 缺 页 中 断 ， 然 后 操作 系统 给 子 进程 分 
配 内 存 并 复制 父 进程 的 数据 ) 。 即 便 如 此 ， 如 果 我 们 在 程序 中 分 配 了 大 
量 内 存 ， 那 么 使 用 fork 时 也 应 当 十 分 谨 居 ， 尺 量 避 人 免 没 必要 的 内 存 分 配 
和 数据 复制 。 








此 外 ， 创 建 子 进程 后 ， 父 进程 中 打开 的 文件 描述 符 上 默认 在 子 进程 中 


也 征 打 开 的 ， 且 文件 描述 符 的 引用 计数 加 1。 不 仅 如 此 ， 父 进程 的 用 户 
根 目 录 、 当 前 工作 目录 等 变量 的 引用 计数 均 会 加 1。 


13.2 ”exec 系列 系统 调用 





有 时 我 们 需要 在 子 进 程 中 执行 其 他 程序 ， 即 蔡 换 当 前 进程 映像 ， 
就 需要 使 用 如 下 exec 系 列 函数 之 一 : 





#include=unistd.h> 


























extern char**environ; 

int execl (const char*path,const char*arg,...); 

int execlp (const char*file,const char*arg,...); 

int execle (const char*path,const char*arg,...,char*const envp[]); 
int execv (const char*path,char*const argv[]); 

int execvp (const char*file,char*const argv[]); 

int execve (const char*path,char*const argv[|],char*const envp[]); 











path 参 数 指定 可 执行 文件 的 完整 路 径 ，fie 参 数 可 以 接受 文件 名 ， 该 
文件 的 具体 位 置 则 在 环境 变量 PATH 中 搜寻 。arg 接 受 可 变 参 数 ，argv 则 
接受 参数 数组 ， 它 们 都 会 被 传递 给 新 程序 (path 或 file 指 定 的 程序 ) 的 
main 函 数 。envp 人 参数 用 于 设置 新 程序 的 环境 变量 。 如 果 未 设置 它 ， 则 新 
程序 将 使 用 由 全 局 变量 environ 指 定 的 环境 变量 。 





一 般 情 况 下 ，exec 函 数 是 不 返回 的 ， 除 非 出 错 。 它 出 错时 返回 -1， 
并 设置 errmno。 如 果 没 出 错 ， 则 原 程 序 中 exec 调 用 之 后 的 代码 都 不 会 执 
行 ， 因 为 此 时 原 程 序 已 经 被 exec 的 参数 指定 的 程序 完全 蔡 换 《包括 代码 
和 数据 ) 。 





exec 函 数 不 会 关闭 原 程 序 打开 的 文件 描述 符 ， 除 非 该 文件 描述 符 被 


设置 了 类 似 SOCK_CLOEXEC 的 属性 〈 见 5.2 节 ) 。 


13.3 处 理 僵尸 进程 


对 于 多 进程 程序 而 言 ， 父 进程 一 般 需 要 跟 踊 子 进程 的 退出 状态 。 因 
此 ， 当 子 进程 结束 运行 时 ， 内 核 不 会 立即 释放 该 进程 的 进程 表 表 项 ， 以 
满足 父 进 程 后 续 对 该 子 进程 退出 信息 的 查询 “如 果 父 进程 还 在 运行 ) 。 
在 子 进程 结束 运行 之 后 ， 父 进程 读 取 其 退出 状态 之 前 ， 我 们 称 该 子 进 程 
处 于 僵尸 态 。 必 外 一 种 使 子 进 程 进入 僵尸 态 的 情况 是 : 父 进程 结束 或 者 
异常 终止 ， 而 子 进 程 继 续 运 行 。 此 时 子 进程 的 PPID 将 被 操作 系统 设置 为 
1， 即 init 进 程 。init 进 程 接 管 了 该 子 进程 ， 并 等 待 它 结束 。 在 父 进 程 退 出 
之 后 ， 子 进程 退出 之 前 ， 该 子 进程 处 于 僵尸 态 。 





由 此 可 见 ， 无 论 哪 种 情况 ， 如 果 父 进程 没有 正确 地 处 理子 进程 的 返 
回信 息 ， 子 进程 都 将 停留 在 僵尸 态 ， 并 占据 着 内 核资 源 。 这 是 绝对 不 能 
容许 的 ， 毕 竟 内 核资 源 有 限 。 下 面 这 对 函数 在 父 进程 中 调用 ， 以 等 待 子 
进程 的 结束 ， 并 获取 子 进程 的 返回 信息 ， 从 而 避免 了 僵尸 进程 的 产生 ， 
或 者 使 子 进 程 的 僵尸 态 立 即 结束 : 











#include=<=sys/types.h> 

#include<sys/wait.h> 

pid 七 wait (intxstat loc); 

pid t waitpid(pid t pid,int*stat loc,int options); 























wait 函 数 将 阻 竖 进程 ， 直 到 该 进程 的 荣 个 子 进程 结束 运行 为 止 。 它 





返回 结束 运行 的 子 进程 的 PID， 并 将 该 子 进程 的 退出 状态 信息 存储 于 
stat_loc 参 数 指向 的 内 存 中 。sys/wait.h 头 文件 中 定义 了 几 个 宏 来 帮助 解释 
子 进程 的 退出 状态 信息 ， 如 表 13-1 所 示 。 


表 13-1 子 进 程 状态 信息 























宏 含 义 
WIFEXITED( stat_val ) 如 果子 进程 正常 结束 ， 它 就 返回 一 个 非 0 值 
WEXITSTATUS( stat_ val ) 如 果 WIFEXITED 非 0， 它 返回 子 进 程 的 退出 码 
WIFSIGNALED( stat_ val ) 如 果子 进程 是 因为 一 个 未 捕获 的 信号 而 终止 ， 它 就 返回 一 个 非 0 值 
WTERMSIG( stat_val ) 如 果 WIFSIGNALED 非 0， 它 返回 一 个 信和 号 值 
WIFSTOPPED(stat_ val ) 如 果子 进程 意外 终止 ， 它 就 返回 一 个 非 0 值 
WSTOPSIG( stat val ) 如 果 WIFSTOPPED 非 0， 它 返回 一 个 信和 号 值 





wait 函 数 的 阻 豆 特性 显然 不 是 服务 器 程序 期 望 的 ， 而 waitpid 函 数 解 
决 了 这 个 问题 。waitpid 只 等 待 由 pid 参 数 指定 的 子 进程 。 如 果 pid 取 值 
为 -1， 那 么 它 就 和 wait 函 数 相 同 ， 即 等 待 任意 一 个 子 进 程 结束 。stat_loc 
参数 的 含义 和 wait 函 数 的 stat_loc 参 数 相 同 。options 参 数 可 以 控制 waitpid 
函数 的 行为 。 该 参数 最 和 常用 的 取 值 是 YNOHANG。 当 options 的 取 值 是 
WNOHANG 时 ，waitpid 调 用 将 是 非 阻塞 的 : 如 果 pid 指 定 的 目标 子 进程 

还 疫 有 结束 或 意外 终止 ， 则 waitpid 立 即 返回 0;， 如 用 目标 子 进程 确实 正 
常 退出 了 ， 则 waitpid 返 回 该 子 进程 的 PID 。waitpid 调 用 失败 时 返回 -1 并 





设置 errno。 





8.3 节 曾 提 到 ， 要 在 事件 已 经 发 生 的 情况 下 执行 非 阻 塞 调用 才能 提 
高 程序 的 效率 。 对 waitpid 函 数 而 言 ， 我 们 最 好 在 某 个子 进 程 退出 之 后 再 
调用 它 。 那 么 父 进程 从 何 得 知 某 个 子 进程 已 经 退出 了 呢 ? 这 正 是 





SIGCHLD 信 和 号 的 用 途 。 当 一 个 进程 结束 时 ， 它 将 给 其 父 进程 发 送 一 个 
SIGCHLD 人 信号。 因此， 我们 可 以 在 父 进程 中 捕获 SIGCHLD 信 号 ， 并 在 
言 号 处 理 函 数 中 调用 waitpid 函 数 以 “彻底 结束 ”一 个 子 进程 ， 如 代码 清单 
13-1 所 示 。 


代码 清单 13-1 SIGCHLD 信 号 的 典型 处 理 函 数 





static voidq handle child(int sig) 
{ 
pid t pig; 
于 信 局 入 七 一心 
while( (pid=waitpid(-1,&stat,WNOHANG) )>0) 
{ 
/* 对 结束 的 子 进程 进行 善后 处 理 */ 
} 
} 


















































134 管 诞 


第 6 章 中 我 们 介绍 过 创建 管道 的 系统 调用 pipe， 我 们 也 多 次 在 代码 
中 利用 它 来 实现 进程 内 部 的 通信 。 实 际 上 ， 管 道 也 是 父 进程 和 子 进程 间 
通信 的 常用 手段 。 





管道 能 在 父 、 子 进程 间 传 递 数 据 ， 利 用 的 是 fork 调 用 之 后 两 个 管道 
文件 描述 符 〈fd[0] 和 fd[1]) 都 保持 打开 。 一 对 这 样 的 文件 描述 符 只 能 保 
证 父 、 子 进程 间 一 个 方向 的 数据 传输 ， 父 进程 和 子 进程 必须 有 一 个 关闭 
fd[0]， 另 一 个 关闭 fd[1]。 比 如 ， 我 们 要 使 用 管道 实现 从 父 进程 向 子 进程 
写 数据 ， 就 应 该 按照 图 13-1 所 示 来 操作 。 


close (fd[0]) 





close (fd[1]) 
数据 流 问 


图 13-1 父 进程 通过 管道 向 子 进 程 写 数据 





显然 ， 如 果 要 实现 父 、 子 进程 之 间 的 双 回 数据 传输 ， 束 必须 使 用 两 
个 管道 。 第 6 章 中 我 们 还 介绍 过 ，socket 编 程 接 口 提供 了 一 个 创建 全 双 工 
管道 的 系统 调用 : socketpair。squid 服 务 器 程序 〈 见 第 4 章 ) 就 是 利用 








socketpair 创 建 管道 ， 以 实现 在 父 进程 和 日 志 服 务 子 进程 之 间 传 递 日 志 
轧 ， 下 面 我 们 简单 地 分 析 之 。 在 测试 机 器 Kongming20 上 有 如 下 环境 : 





S$Sps-eflgrep squid 

root 12489 1 0 20:37?00:00:00 squidqd 

squid 12491 12489 0 20:37?00:00:02 (squid-1) 

squid 12492 12491 0 20:37?00:00:00 (logfile- 
daemon) /var/log/squid/access.1og 

squid 12493 12491 0 20:37?00:00:00 (unlinkd) 

$sudo lsof-p 12491 

squid 12491 squid 9u unix Oxeaf2b440 0t0 40603 socket 

$sudo lsof-p 12492 
log file 12492 squid Ou unix Oxeaf2b680 0t0 40604 socket 
log file 12492 squid lu unix Oxeaf2b680 0t0 40604 socket 
log file 12492 squid 2u CHR 1,3 0t0 4449/dev/null 
log file 12492 squid 3w REG 8,3 202 
271412/var/1log/squid/access. log 








































































































这 些 输 出 说 明 Kongming20 上 开启 了 squid 服 务 。 该 服务 创建 了 几 个 
子 进程 ， 其 中 子 进程 12492 专 门 用 于 输出 日 志 到 /var/log/squid/access.log 
文件 。 父 进程 12491 使 用 socketpair 创 建 了 一 对 UNIX 域 socket， 然 后 关闭 
了 其 中 的 一 个 ， 剩 下 的 那个 socket 的 值 是 9。 子 进程 12492 则 从 父 进程 
12491 继 承 了 这 一 对 UNIX 域 socket， 并 关闭 了 其 中 的 另外 一 个 ， 剩 下 的 
那个 socket 则 被 dup 到 标准 输入 和 标准 输出 上 。 下 面 我 们 telnet 到 squid 服 
务 上 ， 并 向 它 发 送 部 分 数据 。 同 时 开局 另外 两 个 终端 ， 分 别 运行 strace 
命令 以 查看 进程 122491 和 12492 在 这 个 过 程 中 交换 的 数据 。 具 体操 作 如 代 
码 清单 13-2 所 示 。 

















代码 清单 13-2 ”用 strace 命 令 查看 管道 通信 








Stelnet 192.168.1.109 squid 
Trying 192.168.1.109... 
Connected to 192.168.1.109. 
Escape character is'^]'. 
































a〔 回 车 ) 

$sudo strace-p 12491 

write(9,"L1338385956.213 40 192.168.1"...,104)=104 
$sudo strace-p 12492 

read(0,"L1338385956.213 40 192.168. ,4096)=104 
write(3,"1338385956.213 40 192.168.1. 101)=101 


























由 此 可 见 ， 进 程 12491 接 收 到 客户 数据 后 将 日 志 信息 输出 至 管道 
写 文件 描述 符 9) 。 日 志 服 务 子 进程 使 用 阻塞 读 操作 等 待 管道 上 有 数 
据 可 读 《〈 读 文件 描述 符 0) ， 然 后 将 读 取 到 的 日 志 信息 写 
入 /var/log/squid/access.log 文 件 ( 写 文件 描述 符 3) 





不 过 ， 管 道 只 能 用 于 有 关联 的 两 个 进程 《比如 父 、 子 进程 ) 间 的 通 
信 。 而 下 面 要 讨论 的 3 种 System V IPC 能 用 于 无 关联 的 多 个 进程 之 间 的 
通信 ， 因 为 它们 都 使 用 一 个 全 局 唯一 的 键 值 来 标识 一 条 信道 。 不 过 ， 有 
一 种 特殊 的 管道 称 为 FIFO "(First In First Out， 先 进 先 出 ) ， 也 叫 命名 
管道 。 它 也 能 用 于 无 关联 进程 之 间 的 通信 。 因 为 FIFO 管 道 在 网 络 编程 中 
使 用 不 多 ， 所 以 本 书 不 讨论 它 。 





[11] 这 里 要 注意 一 下 ， 虽 然 这 种 特殊 的 管道 被 专门 命名 为 FIFO， 但 并 不 
是 只 有 这 种 管道 才 遵 循 先进 先 出 的 原则 ， 其 实 所 有 的 管道 都 遵循 先进 先 
出 的 原则 。 


13.5 ”信号 量 


13.5.1 ”信和 号 量 原 语 


当 多 个 进程 同时 访问 系统 上 的 某 个 资源 的 时 候 ， 比 如 同时 写 一 个 数 
据 库 的 某 条 记录 ， 或 者 同时 修改 某 个 文件 ， 束 需要 考虑 进程 的 同步 问 
题 ， 以 确保 任 一 时 刻 只 有 一 个 进程 可 以 拥有 对 资源 的 独占 式 访问 。 通 
常 ， 程 序 对 共 至 资源 的 访问 的 代码 只 是 很 短 的 一 段 ， 但 就 是 这 一 段 代 码 
引发 了 进程 之 间 的 莞 态 条 件 。 我 们 称 这 段 代码 为 天 键 代码 段 ， 或 者 临界 
区 。 对 进程 同步 ， 也 就 是 确保 任 一 时 刻 只 有 一 个 进程 能 进入 关键 代码 
段 。 

















要 编写 具有 通用 目的 的 代码 ， 以 确保 关键 代码 段 的 独占 陈 访 问 是 非 
常 困 难 的 。 有 两 个 名 为 Dekker 算 法 和 Peterson 算 法 的 解决 方案 ， 它 们 试 
图 从 语言 本 喘 《〈 不 需要 内 核 文 持 ) 解决 并 发 问题 。 但 它们 依赖 于 忙 等 
每 ， 即 进程 要 持续 不 断 地 等 每 条 个 内 存 位 置 状态 的 改变 。 这 种 方式 下 
CPU 利用 率 太 低 ， 显 然 是 不 可 取 的 。 


Dijkstra 提 出 的 信号 量 〈Semaphore) 概念 是 并 发 编程 领域 迈 出 的 重 
要 一 步 。 信 号 量 是 一 种 特殊 的 变量 ， 它 只 能 取 上 自然 数值 并 且 只 文 持 两 种 
操作 : 等待 (wait) 和 信号 (signal)。 不 过 在 Linux/UNIX 中 , “等 




















待 " 和 “信号 ”都 已 经 具有 特殊 的 含义 ， 所 以 对 信号 量 的 这 两 种 操作 更 常 
用 的 称呼 是 P、V 操 作 。 这 两 个 字母 来 自 于 荷兰 语 单词 passeren〈 传 递 ， 

就 好 像 进入 临界 区 ) 和 vrijgeven〈 释 放 ， 就 好 像 退 出 临界 区 ) 。 假 设 有 
言 号 量 SV， 则 对 它 的 P、V 操 作 含义 如 下 : 











DP(SV)， 如 果 SV 的 值 大 于 0， 束 将 它 减 1 如果 SV 的 值 为 0%， 则 挂 
起 进程 的 执行 


DV(SV)， 如 有 果 有 其 他 进程 因为 等 等 SV 而 挂 起 ， 则 唤醒 之 ， 如 果 没 
有 ， 则 将 SV 加 1。 


信号 量 的 取 值 可 以 是 任何 自然 数 。 但 最 常用 的 、 最 简单 的 信号 量 是 
二 进 制 信号 量 ， 它 只 能 取 0 和 1 这 两 个 值 。 本 书 仅 讨论 二 进 制 信号 量 。 使 
用 二 进 制 信号 量 同 步 两 个 进程 ， 以 确保 关键 代码 段 的 独占 式 访问 的 一 个 
典型 例子 如 图 13-2 所 示 。 






进程 A 的 非 关 键 关键 进程 B 的 非 关 键 
代码 代码 段 代码 





图 13-2 使 用 信号 量 保护 关键 代码 段 


在 图 13-2 中 ， 当 关键 代码 段 可 用 时 ， 二 进 制 信号 量 SV 的 值 为 1， 进 
程 A 和 B 都 有 机 会 进入 关键 代码 段 。 如 果 此 时 进程 A 执 行 了 P(SV) 操 作 将 
SV 减 1， 则 进程 B 名 再 执行 P(SV) 操 作 就 会 被 挂 起 。 和 直到 进程 A 离开 关键 
代码 段 ， 并 执行 V(SV) 操 作 将 SV 加 1， 关 键 代码 段 才 重新 变 得 可 用 。 如 
果 此 时 进程 B 因 为 等 待 SV 而 处 于 挂 起 状态 ， 则 它 将 被 唤醒 ， 并 进入 关键 
代码 段 。 同 样 ， 这 时 进程 A 如 果 再 执行 P(SV) 操 作 ， 则 也 只 能 被 操作 系 
统 挂 起 以 等 待 进程 B 退 出 关键 代码 段 。 














注意 ”使 用 一 个 普通 变量 来 模拟 二 进 制 信号 量 是 行 不 通 的 ， 因 为 所 
有 局 级 语言 都 没有 一 个 原子 操作 可 以 同时 完成 如 下 两 步 操 作 ， 检测 变量 


是 否 为 true/false， 如 果 是 则 再 将 它 设置 为 false/true。 


Linux 信 号 量 的 API 都 定义 在 sys/sem.h 头 文件 中 ， 主 要 包含 3 个 系统 
调用 : semget、semop 和 semctl。 它 们 都 被 设计 为 操作 一 组 信号 量 ， 即 信 

量 集 ， 而 不 是 单个 信号 量 ， 因 此 这 些 接口 看 上 去 多 少 比 我 们 期 望 的 要 
复杂 一 点 。 我 们 将 分 3 小 节 依 次 讨论 之 。 








13.5.2 ”semget 系 统 调用 


semget 系 统 调 用 创建 一 个 新 的 信号 量 集 ， 或 者 获取 一 个 已 经 存在 的 
信号 量 集 。 其 定义 如 下 : 





#include<sys/sem.h> 
int semget (key 七 key,int num sems int sem flags); 








key 参 数 是 一 个 键 值 ， 用 来 标识 一 个 全 局 唯一 的 信号 量 集 ， 就 像 文 
件 名 全 局 唯一 地 标识 一 个 文件 一 样 。 要 通过 信和 号 量 通信 的 进程 需要 使 用 
相同 的 键 值 来 创建 /获取 该 信号 量 。 











num_sems 参 数 指定 要 创建 /获取 的 信号 量 集中 信号 量 的 数目 。 如 果 
古 创建 信 写 量 ， 则 该 值 必须 被 指定 ， 如 果 是 获取 已 经 存在 的 信号 量 ， 则 
可 以 把 它 设置 为 0。 


sem_flags 参 数 指定 一 组 标志 。 它 低 端 的 9 个 比特 是 该 信号 量 的 权 
民 ， 其 格式 和 含义 都 与 系统 调用 open 的 mode 参 数 相同 。 此 外 ， 它 还 可 以 
和 IPC_CREAT 标 志 做 按 位 “或 ”运算 以 创建 新 的 信号 量 集 。 此 时 即使 信 





号 量 已 经 存在 ，semget 也 不 会 产生 错误 。 我 们 还 可 以 联合 使 用 
IPC_CREAT 和 IPC_EXCL 标 志 来 确保 创建 一 组 新 的 、 唯 一 的 信号 量 

在 这 种 情况 下 ， 如 果 信 号 量 集 已 经 存在 ， 则 semget 返 回 错误 并 设置 errno 
为 EEXIST。 这 种 创建 信号 量 的 行为 与 用 O_CREAT 和 O_EXCL 标 志 调 用 
open 来 排他 式 地 打开 一 个 文件 相似 。 








semget 成 功 时 返回 一 个 正 整数 值 ， 它 是 信号 量 集 的 标识 符 ，semget 
失败 时 返回 -1， 并 设置 ermo。 


如 果 semget 用 于 创建 信号 量 集 ， 则 与 之 关联 的 内 核 数 据 结构 体 
semid_ds 将 被 创建 并 初始 化 。semid_ds 结 构 体 的 定义 如 下 : 





#include<sys/sem.h> 

/* 该 结构 体 用 于 描述 IPC 对 象 ( 信 号 量 、 共 享 内 存 和 消息 队列 〉 的 权限 */ 
struct ipc perm 

{ 

key 七 key;/* 键 值 */ 

uiqd t uigd;/* 所 有 者 的 有 效用 户 ID*/ 
gid t giqd;/* 所 有 者 的 有 效 组 ID*/ 


























ull 















































uid t cuiqd;/* 创 建 者 的 有 效用 户 ID*/ 
gid t cgid;/* 创 建 者 的 有 效 组 ID*/ 
mode 上 t mode;/* 访 问 权 限 */ 

/* 省 略 其 他 填充 字段 */ 

} 





























truct semid ds 








S 
{ 
struct ipc perm sem perm;/* 信 号 量 的 操作 权限 */ 

unsigned long int sem nsems;/* 访 信号 量 集 中 的 信号 量 数目 */ 
time t sem otime;/* 最 后 一 次 调用 semop 的 时 间 */ 

time t sem ctime;/* 最 后 一 次 调用 semct1 的 时 间 */ 

/* 省 略 其 他 填充 字段 */ 

}; 


















































semget 对 semid_ds 结 构 体 的 初始 化 包括 : 

口 将 sem_perm.cuid 和 sem_perm.uid 设 置 为 调用 进程 的 有 效用 户 ID。 
口 将 sem_perm.cgid 和 sem_perm.gid 设 置 为 调用 进程 的 有 效 组 ID。 

口 将 sem_perm.mode 的 最 低 9 位 设置 为 sm_flags 参 数 的 最 低 9 位 。 
口 将 sem_nsems 设 置 为 num_sems。 

口 将 sem_otime 设 置 为 0。 


口 将 sem_ctime 设 置 为 当前 的 系统 时 间 。 


13.5.3 ”semop 系 统 调用 


semop 系 统 调 用 改变 信号 量 的 值 ， 即 执行 P、V 操 作 。 在 讨论 semop 
之 前 ， 我 们 需要 先 介 绍 与 每 个 信号 量 关 联 的 一 些 重 要 的 内 核 变 量 : 








unsigned short semval; 
/* 信 号 量 的 值 */ 

me Short semzcnt; 

/* 等 待 信号 量 值 变 为 0 的 进程 数量 */ 

unsigned short semncnt; 

/* 等 待 信号 量 值 增加 的 进程 数量 */ 

pid t sempid; 

/* 最 后 一 次 执行 semop 操 作 的 进程 ID*/ 


















































semop 对 信号 量 的 操作 实际 上 就 是 对 这 些 内 核 变 量 的 操作 。semop 


的 定义 如 下 : 贡 nclude<sys/sem.h> 








int Semop (int sem id,struct sembuf*sem ops,size 七 num sem ops) 








sem_id 参 数 是 由 semget 调 用 返回 的 信号 量 集 标识 符 ， 用 以 指定 被 操 
作 的 目标 信号 量 集 。sem_ops 参 数 指 同 一 个 sembuf 结 构 体 类 型 的 数组 ， 
sembuf 结 构 体 的 定义 如 下 : 








struct sembuft{ 
unsigned short int sem num;short int sem op; 
Short int sem flg; 


} 

















其 中 ，sem_num 成 员 是 信号 量 集 中 信号 量 的 编号 ，0 表 示 信 号 量 集 
中 的 第 一 个 信号 量 。sem_op 成 员 指 定 操作 类 型 ， 其 可 选 值 为 正 整 数 、0 
和 负 整 数 。 每 种 类 型 的 操作 的 行为 又 受到 sem_flg 成 员 的 影响 。sem_flg 
的 可 选 值 是 IPC_NOWAIT 和 SEM_UNDO。IPC_NOWAIT 的 含义 是 ， 无 
论 信号 量 操作 是 人 否 成 功 ，semop 调 用 都 将 立即 返回 ， 这 类 似 于 非 阻 豆 IO 
操作 。SEM_UNDO 的 含义 是 ， 当 进程 退出 时 取消 正在 进行 的 semop 操 
作 。 有 具体 来 说 ，sem_op 和 sem_flg 将 按照 如 下 方式 来 影响 semop 的 行为 : 


口 如 宁 sem_op 大 于 0， 则 semop 将 被 操作 的 信号 量 的 值 smval 增 加 
sem_op。 该 操作 要 求 调用 进程 对 被 操作 信和 号 量 集 拥 有 号 权限 。 此 时 知 设 
置 了 JSEM_UNDO 标 志 ， 则 系统 将 更 新 进程 的 semadj 变 量 〈 用 以 跟踪 进 
程 对 信号 量 的 修改 情况 ) 。 








口 如 果 sem_op 等 于 0， 则 表示 这 是 一 个 “等 待 0”(wait-for-zero) 操 
作 。 该 操作 要 求 调用 进程 对 被 操作 信号 量 集 拥 有 读 权 限 。 如 果 此 时 信号 
量 的 值 是 0， 则 调用 立即 成 功 返 回 。 如 果 信 和 号 量 的 值 不 是 0， 则 semop 失 
败 返 回 或 者 阻塞 进程 以 等 待 信号 量变 为 0。 在 这 种 情况 下 ， 当 
IPC_NOWAIT 标 志 被 指定 时 ，semop 立 即 返 回 一 个 错误 ， 并 设置 errno 为 
EAGAIN。 如 果 未 指定 IPC_NOWAIT 标 志 ， 则 信和 号 量 的 semzcnt 值 加 1， 
进程 被 投入 睡眠 直到 下 列 3 个 条 件 之 一 发 生 : 信和 号 量 的 值 smval 变 为 0， 
此 时 系统 将 该 信号 量 的 semzcnt 值 减 1， 被 操作 信号 量 所 在 的 信号 量 集 被 
进程 移 除 ， 此 时 semop 调 用 失败 返回 ，errno 被 设置 为 EIDRM; 调用 被 信 
号 中 断 ， 此 时 semop 调 用 失败 返回 ，errno 被 设置 为 EINTR， 同 时 系统 将 


该 信号 量 的 semzcnt 值 减 1。 























口 如 果 sem_op 小 于 0， 则 表示 对 信号 量 值 进行 减 操作 ， 即 期 望 获得 
言 号 量 。 该 操作 要 求 调 用 进程 对 被 操作 信和 号 量 集 拥 有 号 权限 。 如 果 信和 号 
量 的 值 smval 大 于 或 等 于 sem_op 的 绝对 值 ， 则 semop 操 作成 功 ， 调 用 进 
程 立 即 获得 信号 量 ， 并 且 系统 将 该 信号 量 的 semval 值 减 去 sem_op 的 绝对 
值 。 此 时 如 果 设 置 了 SEM_UNDO 标 志 ， 则 系统 将 更 新 进程 的 semadj 变 

。 如 果 信 号 量 的 值 semval 小 于 sem_op 的 绝对 值 ， 则 semop 失 败 返 回 或 
者 阻塞 进程 以 等 待 信号 量 可 用 。 在 这 种 情况 下 ， 当 IPC_NOWAIT 标 志 被 
指定 时 ，semop 立 即 返 回 一 个 错误 ， 并 设置 errno 为 EAGAIN。 如 果 未 指 
定 IPC_NOWAIT 标 志 ， 则 信号 量 的 semncnt 值 加 1， 进 程 被 投入 睡眠 直到 
下 列 3 个 条 件 之 一 发 生 : 信号 量 的 值 semval 变 得 大 于 或 等 于 sem_op 的 绝 








对 值 ， 此 时 系统 将 该 信号 量 的 semncnt 值 减 1， 并 将 semval 减 去 sem_op 的 
绝对 值 ， 同 时 ， 如 果 SEM_UNDO 标 志 被 设置 ， 则 系统 更 新 semadj 变 
量 ， 被 操作 信号 量 所 在 的 信号 量 集 被 进程 移 除 ， 此 时 semop 调 用 失败 返 
回 ，errmo 被 设置 为 EIDRM;， 调用 被 信号 中 断 ， 此 时 semop 调 用 失败 返 
回 ，errno 被 设置 为 EINTR， 同 时 系统 将 该 信号 量 的 semncnt 值 减 1。 


semop 系 统 调用 的 第 3 个 参数 num_sem_ops 指 定 要 执行 的 操作 个 数 ， 
即 sem_ops 数 组 中 元 素 的 个 数 。semop 对 数组 sem_ops 中 的 每 个 成 员 按照 
数组 顺序 依次 执行 操作 ， 并 且 该 过 程 是 原子 操作 ， 以 避免 别 的 进程 在 同 
一 时 刻 按照 不 同 的 顺序 对 该 信号 集中 的 信号 量 执行 semop 操 作 导 致 的 竞 
态 条 件 。 











semop 成 功 时 返回 09， 失败 则 返回 -1 并 设置 errno。 失 败 的 时 候 ， 
sem_ops 数 组 中 指定 的 所 有 操作 都 不 被 执行 


13.5.4 semctl 系 统 调用 





semctl 系 统 调 用 允许 调用 者 对 信号 量 进行 直接 控制 。 其 定义 如 下 : 


#include<sys/sem.h> 
int semctl1 (int sem id,int sem num,int commangd,...); 





sem_id 参 数 是 由 semget 调 用 返回 的 信号 量 集 标识 符 ， 用 以 指定 被 操 
作 的 信号 量 集 。sem_num 参 数 指 定 被 操作 的 信号 量 在 信号 量 集中 的 编 








号 。command 参 数 指 定 要 执行 的 





命令 。 有 的 命令 需要 调用 者 传递 第 


参数 。 第 4 个 参数 的 类 型 由 用 户 自 己 定义 ， 但 sys/sem.h 头 文件 给 出 了 它 


的 推荐 格式 ， 有 具体 如 下 : 





union semun 


int val;/* 用 于 SETVAL 命 令 */ 





























truct seminfo 


S 
u 
struct seminfo* buf; 
} 
S 
{ 














truct semid dqsxbuf;/* 用 于 IPC_STAT 和 
nsigned shortxarray;/x 用 于 GETALL 和 S 























PC SE ET 命令 */ 











ETALL 命 令 */ 























/* 用 于 IPC_ 











NFO 命 令 






























































int semmap;/*Linux 内 核 没 有 使 用 */ 

int semmni;/* 系 统 最 多 可 以 拥有 的 信号 量 集 数 目 */ 

int semmns;/* 系 统 最 多 可 以 拥有 的 信号 量 数目 */ 

int semmnu;/*Linux 内 核 没 有 使 用 */ 

int semmsl;/* 一 个 信 号 量 集 最 多 允许 4 包含 的 信号 量 数目 */ 

int semopm; /*semop 一 次 最 多 能 执行 的 sem_op 操 作 数目 */ 

int semume;/*Linux 内 核 没 有 使 用 */ 

int semusz;/*sem undo 结 构 体 的 大 小 */ 

int semvmx; /* 最 大 人 允许 的 信号 量 值 */ 

/* 最 多 允许 的 UNDO 次 数 〈 带 SEM_UNDo 标 志 的 semop 操 作 的 次 数 ) */ 
t semaem; 








a 
~ 
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semct 文 持 的 所 有 命令 如 表 13-2 所 示 。 


表 13-2 semctl 的 command 参数 


命 令 客 亦 semctl 成 功 时 的 返回 值 
IPC_STAT 将 信号 量 集 关联 的 内 核 数 据 结构 复制 到 semun.buf 中 0 
a 将 semun.buf 中 的 部 分 成 员 复 制 到 信号 量 集 关 联 的 内 核 数 让 
据 结构 中 ， 辣 时 内 核 数据 中 的 semid_ds.sem_ctime 被 更 新 
立即 移 除 信号 量 集 ， 唤 醒 所 有 等 待 该 信号 量 集 的 进程 
EAMD (semop 返 i 并 设置 errno 为 EIDRM) d 
IPC_INFO 获取 系统 信和 号 量 资 源 丁 已 置 信 息 ， 将 经 吉 果 存储 在 semun. _ buf 内 核 信 号 号 量 量 集 数组 中 已 经 被 使 用 的 


中 。 这 些 信 息 i 含义 见 结构 体 seminfo 的 注释 部 分 项 的 最 大 索引 值 
与 IPC_INFO 类 似 ， 不 过 semun._buf.semusz 被 设置 为 系 
SEM_INFO | 统 目 前 拥有 的 信号 量 集 数目 ， 而 semnu._buf.semaem 被 设置 | 同 IPC_INFO 
为 系统 目前 拥有 的 信和 号 量 数目 
与 ]PC_STAT 类 似 ， 不 过 此 时 sem_id 参数 不 是 用 来 表示 信 


为 核 信 和 号 量 集 数组 中 索引 值 为 
SEM_STAT | 号 量 集 标识 符 ， 而 是 内 核 中 信号 量 集 数组 的 索引 《系统 的 所 | ”所 核 信号 量 集 数 组 中 索引 值 为 sem_ 


id 的 信号 2 量 ! 集 的 标识 符 


有 信 号 量 里 集 都 是 该 数组 中 的 一 项 ) 
将 由 sem_id 标识 的 信号 量 集中 的 所 有 信号 量 的 semval 值 


ADL 导出 到 semun.array 中 Y 

GETNCNT | 获取 信和 号 量 的 semncnt 值 信和 号 量 的 semncnt 值 
GETPID 获取 信 号 量 的 sempid 值 信号 量 的 sempid 值 
GETVAL 获得 信号 量 的 semval 值 a 时 的 semval 值 
GETZCNT 获得 信号 量 的 semzcnt 值 言 号 量 的 semzcnt 值 

用 semun.array 中 的 数据 填充 由 sem_id 标识 的 信号 量 集 
SETALL ”| 中 的 所 有 信号 量 的 semval 值 ， 同 时 内 核 数据 中 的 semid_ 0 
ds.sem_ctime 被 更 新 
an 将 信号 量 的 semval 值 设 置 为 semun.val， 同 时 内 核 数 据 中 6 


的 semid_ds.sem_ctime 被 更 新 





注意 ”这 些 操 作 中 ,GETNCNT、GETPID、GETVAL、GETZCNT 
和 SETVAL 操 作 的 是 单个 信号 量 ， 它 是 由 标识 符 sem_id 指 定 的 信号 量 集 
中 的 第 sem_num 个 信号 量 ; 而 其 他 操作 针对 的 是 整个 信号 量 集 ， 此 时 
semct] 的 参数 sem_num 被 忽略 。 





semctl 成 功 时 的 返回 值 取决 于 command 参 数 ， 如 表 13-2 所 示 。semctl 
失败 时 返回 -1， 并 设置 ermo。 


13.5.5 ”特殊 键 值 IPC_PRIVATE 


semget 的 调用 者 可 以 给 其 key 参 数 传递 一 个 特殊 的 键 值 
IPC_PRIVATE (其 值 为 0， ， 这 样 无 论 该 信号 量 是 否 已 经 存在 ，semget 
都 将 创建 一 个 新 的 信号 量 。 使 用 该 键 值 创建 的 信号 量 并 非 像 它 的 名 字 声 
称 的 那样 是 进程 私有 的 。 其 他 进程 ， 尤 其 是 子 进程 ， 也 有 方法 来 访问 这 
个 信号 量 。 所 以 semget 的 man 手 册 的 BUGS 部 分 上 说 ， 使 用 名 字 
IPC_PRIVATE 有 些 误导 《历史 原因 ) ， 应 该 称 为 PC_NEW。 比 如 下 面 
的 代码 清单 13-3 就 在 父 、 子 进程 间 使 用 一 个 IPC_PRIVATE 信 和 号 量 来 同 
步 。 

















CS 


代码 清单 13-3 ”使 用 IPC_PRIVATE 信 号 量 





#include<sys/sem.h> 
#include=stdio.h> 
#include=stdlib.n> 
#include=<=unistd.hn> 
#include<sys/wait.h> 
union semun 

{ 

int val; 

struct semid ds*buf; 
unsigned Short int*array; 
struct seminfo* buf; 
}; 

/*op 为 -1 时 执行 P 操 作 ，op 为 1 时 执行 V 操 作 */ 
void pv(int sem id,int op) 

{ 

struct sembuf sem b; 

sem b.sem num=0; 

sem b.sem op=op; 

sem b.sem flg=SEM UNDO; 

semop (sem id,&sem b,1); 









































int main(int argdcrcharx*xargv []) 























int sem id=semget (IPC PRIVATE,1,0666); 

union semun sem un; 

sem un.val=1; 

semctl (sem id,0,SETVAL,sem un); 

pid 七 id=fork(); 

(Ld) 

{ 

return 1; 

} 

else if (id==0) 

{ 

printf("child try to get binary sem\n"); 

/* 在 父 、 子 进程 间 共享 TPC _ PRIVATE 信 号 量 的 关键 就 在 于 二 者 都 可 以 操作 该 信号 量 的 标 
识 符 sem ig*/ 

pv (sem id,-1); 

printf ("child get the sem and would release it after 5 
seconds\n"); 








































































































sleep (5) ， 

pv (sem id,1); 

exit (0); 

} 

else 

{ 

printf("parent try to get binary sem\n"); 

pv (sem id,-1); 

printf("parent get the sem and would release it after 5 
seconds\n"); 

sleep (5) ， 


PV(sem id,1); 

} 

waitpid(id,NULL,o0); 

semctl (sem id,0,IPC RMID, sem un);/* 删 除 信 号 量 */ 
return 0; 


} 

















另外 一 个 例子 是 : 工作 在 prefork 模 式 下 的 httpd 网 页 服务 器 程序 使 用 
1 个 IPC_PRIVATE 信 号 量 来 同步 各 子 进 程 对 epoll_wait 的 调用 权 。 下 面 我 
们 简单 分 析 一 下 这 个 例子 。 在 测试 机 器 Kongming20 上 ， 使 用 strace 命 令 
依次 查看 httpd 的 各 子 进程 是 如 何 协 调 工作 的 : 


一 一 


$sps-eflgrep httpd 


























































































































root 1701 1 0 09:17?300:00:00/usr/sbin/httpd-k start 
apache 1703 1701 0 09:17?00:00:00/usr/sbin/httpd-k start 
apache 1704 1701 0 09:17?00:00:00/usr/sbin/httpd-k start 
apache 1705 1701 0 09:17?00:00:00/usr/sbin/httpd-k start 
apache 1706 1701 0 09:17?00:00:00/usr/sbin/httpd-k start 
apache 1707 1701 0 09:17?00:00:00/usr/sbin/httpd-k start 
apache 1708 1701 0 09:17?00:00:00/usr/sbin/httpd-k start 
apache 1709 1701 0 09:17?00:00:00/usr/sbin/httpd-k start 
apache 1710 1701 0 09:17?00:00:00/usr/sbin/httpd-k start 
$sudo strace-p 1703 

semop (393222, {{0,-1,SEM UNDO}},1 

$sudo strace-p 1704 











semop (393222, {{0,-1,SEM UNDO}},1 





$sudo strace-p 1709 

epoll wait (14,{},2,10000)=0 
$sudo strace-p 1710 

semop (393222, {{0,-1,SEM UNDO}},1 














由 此 可 见 ，httpd 的 子 进程 1703 一 1708 和 1710 都 在 等 待 信号 量 
393222《〈 这 是 一 个 标识 符 ) 可用; 只 有 进程 1709 暂 时 拥有 该 信号 量 ， 
为 进程 1709 调 用 epoll_wait 以 等 待 新 的 客户 连接 。 当 有 新 连接 到 来 时 ， 
进程 1709 将 接受 之 ， 并 对 信和 号 量 393222 执 行 V 操 作 ， 此 时 将 有 另外 一 个 
子 进程 获得 该 信号 量 并 调用 epoll_wait 来 等 待 新 的 客户 连接 。 那 么 我 们 
如 何 知 道 信号 量 393222 是 使 用 键 值 IPC_PRIVATE 创 建 的 呢 ? 答案 将 在 
13.8 节 揭晓 。 




















下 面 要 讨论 共享 内 存 和 消息 队列 。 这 两 种 IPC 在 创 
资源 的 时 候 也 支持 IPC_PRIVATE 键 值 ， 其 含义 与 信号 量 的 
IPC_PRIVATE 键 值 完全 相同 ， 不 再 资 述 。 














共有 至 内 存 是 最 高 效 的 IPC 机 制 ， 因 为 它 不 涉及 进程 之 间 的 任何 数据 
传输 。 这 种 高 效率 带 来 的 问题 是 ， 我 们 必须 用 其 他 辅助 手段 来 同步 进程 
对 共 至 内 存 的 访问 ,否则 会 产生 苋 态 条 件 。 因 此 ， 共 至 内 存 通 常 和 其 他 
进程 间 通 信 方 式 一 起 使 用 。 


Linux 共 享 内 存 的 API 都 定义 在 sys/shm.h 头 文件 中 ， 包 括 4 个 系统 调 
用 : shmget、shmat、shmdt 和 shmctl。 我 们 将 依次 讨论 之 。 


13.6.1 shmget 系 统 调用 





shmget 系 统 调用 创建 一 段 新 的 共 诗 内 存 ， 或 者 获取 一 段 已 经 存在 的 
共享 内 存 。 其 定义 如 下 : 





#include=<=sys/shm.h> 
int shmget (key 七 key,size t size,int shmflg); 








和 semget 系 统 调用 一 样 ，key 参 数 是 一 个 键 值 ， 用 来 标识 一 段 全 局 
唯一 的 共享 内 存 。size 参 数 指定 共享 内 存 的 大 小 ， 单 位 是 字 市 。 如 果 是 
创建 新 的 共享 内 存 ， 则 size 值 必须 被 指定 。 如 果 是 获取 已 经 存在 的 共享 
内 存 ， 则 可 以 把 size 设 置 为 0。 








shmflg 参 数 的 使 用 和 含义 与 smget 系 统 调用 的 sem_flags 参 数 相 同 。 
不 过 shmget 文 持 两 个 额外 的 标志 
SHM_NORESERVE。 它 们 的 含义 如 下 : 





SHM HUGETLB 和 


DSHM_HUGETLB， 类 似 于 mmap 的 MAP_HUGETLB 标 志 ， 系 统 将 
使 用 “大 页 面 ?来 为 共享 内 存 分 配 空间 。 





DSHM_NORESERVE， 类 似 于 mmap 的 MAP_NORESERVE 标 志 ， 
不 为 共享 内 存 保留 交换 分 区 (swap 空间 ) 。 这 样 ， 当 物理 内 存 不 足 的 时 
候 ， 对 该 共享 内 存 执行 写 操作 将 触发 SIGSEGV 信 和 号 。 








shmget 成 功 时 返回 一 个 正 整数 值 ， 它 是 共享 内 存 的 标识 符 。shmget 
失败 时 返回 -1， 并 设置 errno。 


如 果 shmget 用 于 创建 共享 内 存 ， 则 这 上段 共享 内 存 的 所 有 字 节 都 被 初 
始 化 为 0， 与 之 关联 的 内 核 数据 结构 shmid_ds 将 被 创建 并 初始 化 。 
shmid_ ds 结构 体 的 定义 如 下 : 








struct shmid ds 

















struct ipc perm shm perm;/* 共 享 内 存 的 操作 权限 */ 

size t shm segsz;/* 共 享 内 存 大 小 ， 单 位 是 字 节 */ 

time t shm atime;/* 对 这 段 内 存 最 后 一 次 调用 shnmat 的 时 间 */ 

time t shm dtime;/* 对 这 段 内 存 最 后 一 次 调用 snmdt 的 时 间 */ 

time t shm ctime;/* 对 这 段 内 存 最 后 一 次 调用 snmct1 的 时 间 */ 
pid t shm cpid;/* 创 建 者 的 PID*/ 

”pidq t shm lpid;/* 最 后 一 次 执行 shmat 或 shmqdt 操 作 的 进程 的 PID*/ 

shmatt t shm nattach;/* 目 前 关联 到 此 共享 内 存 的 进程 数量 */ 

/* 省 略 一 些 填充 字段 */ 

}; 











































































































shmget 对 shmid_ ds 结构 体 的 初始 化 包括 : 
口 将 shm_perm.cuid 和 shm_perm.uid 设 置 为 调用 进程 的 有 效用 户 ID。 
口 将 shm_perm.cgid 和 shm_perm.gid 设 置 为 调用 进程 的 有 效 组 ID 。 
口 将 shm_perm.mode 的 最 低 9 位 设置 为 shmflg 参 数 的 最 低 9 位 。 
口 将 shm_segsz 设 置 为 size。 
口 将 shm_lpid、shm_nattach、shm_atime、shm_dtime 设 置 为 0。 
口 将 shm_ctime 设 置 为 当前 的 时 间 。 
13.6.2 ”shmat 和 shmdt 系 统 调用 
共享 内 存 被 创建 /获取 之 后 ， 我 们 不 能 立即 访问 它 ， 而 是 需要 先 将 


它 关 联 到 进程 的 地 址 空间 中 。 使 用 完 共 至 内 存 之 后 ， 我 们 也 需要 将 它 从 
进程 地 址 空间 中 分 离 。 这 两 项 任务 分 别 由 如 下 两 个 系统 调用 实现 : 





#include=<=sys/shm.h> 
void*shmat (int shm id,const void*shm addr,int shmflg); 
int shmdt (const void*shm addr); 








其 中 ，shm _id 参 数 是 由 shmget 调 用 返回 的 共享 内 存 标识 符 。 
shm_addr 参 数 指定 将 共享 内 存 关 联 到 进程 的 哪 块 地 址 空间 ， 最 终 的 效果 


还 受到 shmflg 参 数 的 可 选 标 志 SHM_RND 的 影 啊 : 


口 如 果 shm_addr 为 NULL， 则 被 关联 的 地 址 由 操作 系统 选择 。 这 是 
推荐 的 做 法 ， 以 确保 代码 的 可 移植 性 。 


口 如 果 shm_addr 非 空 ， 并 有 日 SHM_RND 标 志 未 被 设置 ， 则 共享 内 存 
被 关联 到 addr 指 定 的 地 址 处 。 


口 如 果 shm_addr 非 空 ， 并 且 设 置 了 SHM_RND 标 志 ， 则 被 关联 的 地 
址 是 [shm_addr-(shm_addr%SHMLBA)]。SHMLBA 的 含义 是 “ 段 低 端 边界 
地 址 倍数 ”(Segment Low Boundary Address Multiple) ， 它 必须 是 内 存 
页 面 大 小 (PAGE_SIZE) 的 整数 倍 。 现 在 的 Linux 内 核 中 ， 它 等 于 一 个 
内 存 页 大 小 。SHM_RND 的 含义 是 圆 整 〈round) ， 即 将 共享 内 存 被 关联 
的 地 址 向 下 圆 整 到 离 shm_addr 最 近 的 SHMLBA 的 整数 倍 地 址 处 。 


除了 SHM_RND 标 志 外 ，shmflg 参 数 还 支持 如 下 标志 : 


DSHM_RDONLY。 进 程 仅 能 读 取 共享 内 存 中 的 内 容 。 符 没有 指定 
该 标志 ， 则 进程 可 同时 对 共享 内 存 进 行 读 写 操作 (当然 ， 这 需要 在 创建 
共享 内 存 的 时 候 指 定 其 读 写 权 限 ) 。 











DSHM_REMAP。 如 果 地 址 shmaddr 已 经 被 关联 到 一 段 共 享 内 存 
上 ， 则 重新 关联 。 








DSHM_EXEC。 它 指定 对 共享 内 存 段 的 执行 权限 。 对 共享 内 存 而 


执行 权限 实际 上 和 读 权限 是 一 样 的 。 


HI 


shmat 成 功 时 返回 共享 内 存 被 关联 到 的 地 址 ， 失 败 则 返回 (void*)-1 并 
设置 errmo。shmat 成 功 时 ， 将 修改 内 核 数 据 结构 shmid_ds 的 部 分 字段 ， 
如 下 : 


口 将 shm _nattach 加 1。 
口 将 shm_lpid 设 置 为 调用 进程 的 PID。 
口 将 shm_atime 设 置 为 当前 的 时 间 。 


shmdt 函 数 将 关联 到 shm_addr 处 的 共享 内 存 从 进程 中 分 离 。 它 成 功 
时 返回 0， 失 败 则 返回 -1 并 设置 errno。shmdt 在 成 功 调用 时 将 修改 内 核 数 
据 结 构 shmid_ds 的 部 分 字段 ， 如 下 : 


口 将 shm_nattach 减 1。 
口 将 shm_lpid 设 置 为 调用 进程 的 PID。 


口 将 shm_dtime 设 置 为 当前 的 时 间 。 


13.6.3 shmctl 系 统 调用 





shmct 系 统 调用 控制 共享 内 存 的 茶 些 属性 。 其 定义 如 下 : 


#include=<=sys/shm.h> 
int shmctl (int shm id,int command,struct shmid ds*buf 





~ 一 
AN。 





其 中 ，shm_id 参 数 是 由 shmget 调 用 返回 的 共享 内 存 标 识 符 。 
command 参 数 指定 要 执行 的 命令 。shmect 文 持 的 所 有 命令 如 表 13-3 所 


小 。 


表 13-3 shmctl 支持 的 命令 


命令 shmct 成 功 时 的 返回 什 
IPC_STAT 将 共 说 闪存 相关 的 核 数据 结构 复制 到 buf (第 3 个 参数 ， 下 同 ) 中 | 0 
buf 中 的 部 分 成 员 复制 到 共享 内 存 相 关 的 内 核 数 据 结 构 中 ， 同 时 


el 核 数据 中 的 shmid_ds.shm_ctime 被 更 新 
J RT 宇内 存 打 上 删除 的 标记 。 这 样 ; 和 最 后 -个 使 用 它 的 进程 调用 0 
3 shmdt 将 它 从 进程 中 分 离 时 ， 该 共享 内 存 就 被 删除 J 
获取 系统 共享 内 存 资源 配置 信息 ， 将 结果 存储 在 buf 中 。 应 用 程序 | 内核 共 享 内 存 信息 数 
IPC_INFO 需要 将 buf 转换 成 shminfo 结构 体 类 型 来 读 取 这 些 系统 信息 。shminfo | 组 中 已 经 被 使 用 的 项 的 
结构 体 与 seminfo 类 似 ， 这 里 不 再 歼 述 最 大 索引 值 


与 IPC_INFO 类 似 ， 不 过 返回 的 是 已 经 分 配 的 共享 内 存 占用 的 资源 

SHM INFO a 息 。 应 用 程序 需要 将 buf 转换 成 shm_info 结构 体 类 型 来 读 取 这 些 信 | 同 IPC_INFO 
。shn_info 结构 体 与 shminfo 类 似 ， 这 里 不 再 著述 
I STAT 类 似 ， 不 过 此 时 shm_id 参数 不 是 用 来 表示 共享 内 存 标 | 内 核 共享 内 存 信息 数 


SHM_STAT 识 符 ， 而 是 内 核 中 共享 内 存 信 息 数组 的 索引 每 个 共享 内 存 的 信息 都 | 组 中 索引 值 为 shm id 的 
是 ee 的 一 项 ) 共享 内 存 的 标识 符 
SHM _ LOCK 禁止 共享 内 存 被 移动 至 交换 分 区 0 





SHM_UNLOCK | 允许 共享 内 存 被 移动 至 交换 分 区 0 


shmctl 成 功 时 的 返回 值 取 决 于 command 参 数 ， 如 表 13-3 所 示 。shmctl 
失败 时 返回 -1， 并 设置 ermo。 


13.6.4 ”共享 内 存 的 POSIX 方 法 


6.5 节 中 我 们 介绍 过 mmap 疯 数 。 利 用 它 的 MAP_ANONYMOUS 标 志 
我 们 可 以 实现 父 、 子 进程 之 间 的 匿名 内 存 共享 。 通 过 打开 同一 个 文件 ， 





mmap 也 可 以 实现 无 关 进 程 之 间 的 内 存 共 享 。Linux 提 供 了 另外 一 种 利用 
mmap 在 无 关 进 程 之 间 共 享 内 存 的 方式 。 这 种 方式 无 须 任 何 文件 的 文 
持 ， 但 它 需 要 先 使 用 如 下 函数 来 创建 或 打开 一 个 POSIX 共 享 内 存 对 象 : 











#include=sys/mman.h> 

#include=<=sys/stat.h> 

#include=<fcntl.h> 

int shm open(const char*name,int oflag,mode t mode); 




















shm_open 的 使 用 方法 与 open 系 统 调 用 完全 相同 。 


name 参 数 指定 要 创建 /打开 的 共享 内 存 对 象 。 从 可 移植 性 的 角度 考 
虑 ， 该 参数 应 该 使 用 “/somename” 的 格式 : 以 “开始 ， 后 接 多 个 字符 ， 
且 这 些 字符 都 不 是 %/”， 以 “\ 0” 结 尾 ， 长 度 不 超过 NAME_MAX (通常 
Ds 





oflag 参 数 指定 创建 方式 。 它 可 以 是 下 列 标志 中 的 一 个 或 者 多 个 的 按 
位 或 : 


DO_RDONLY。 以 只 读 方式 打开 共享 内 存 对 象 。 
DO_RDWR。 以 可 读 、 可 写 方式 打开 共享 内 存 对 象 。 


DO_CREAT。 如 果 共 享 内 存 对 象 不 存在 ， 则 创建 之 。 此 时 mode 参 
数 的 最 低 9 位 将 指定 该 共享 内 存 对 象 的 访问 权限 。 共 享 内 存 对 象 被 创建 
的 时 候 ， 其 初始 长 度 为 0。 





DO_EXCL。 和 O_CREAT 一 起 使 用 ， 如 果 由 name 指 定 的 共享 内 存 
对 象 已 经 存在 ， 则 shm_open 调 用 返回 错误 ， 否 则 就 创建 一 个 新 的 共享 内 
存 对 象 。 





DO_TRUNC。 如 果 共 享 内 存 对 象 已 经 存 在 ， 则 把 它 截 断 ， 使 其 长 
度 为 0。 

shm_open 调 用 成 功 时 返回 一 个 文件 描述 符 。 该 文件 描述 符 可 用 于 后 
续 的 mmap 调 用 ， 从 而 将 共享 内 存 关 联 到 调用 进程 。shm_open 失 败 时 返 
回 -1， 并 设置 ermo。 





和 打开 的 文件 最 后 需要 关闭 一 样 ， 由 shm_open 创 建 的 共享 内 存 对 象 
使 用 完 之 后 也 需要 被 删除 。 这 个 过 程 是 通过 如 下 函数 实现 的 : 











#include=sys/mman.h> 
#include=<=sys/stat.h> 
#include<fcntl.h> 

int shm unlink(const char*name); 














该 函数 将 name 参 数 指定 的 共享 内 存 对 象 标记 为 等 竺 删除 。 当 所 有 使 
用 该 共享 内 存 对 象 的 进程 都 使 用 ummap 将 它 从 进程 中 分 离 之 后 ， 系 统 将 
销毁 这 个 共享 内 存 对 象 所 占据 的 资源 。 


如 末代 码 中 使 用 了 上 述 POSIX 共 至 内 存 函 数 ， 则 编译 的 时 候 需 要 指 
定 链接 选项 -lrt。 


13.0.5 





本 日 本 三 


区 


享 内 存 实例 


在 9.6.2 小 节 中 ， 我 们 介绍 过 一 个 聊天 室 服务 器 程序 。 下 面 我 们 将 它 
修改 为 一 个 多 进程 服务 器 ， 一 个 子 进程 处 理 一 个 客户 连接 。 同 时 ， 我 们 
将 所 有 客户 socket 连 接 的 读 缓冲 设计 为 一 块 共享 内 存 ， 如 代码 清单 13-4 


所 示 。 


代码 清单 13-4 ”使 用 共 译 内 存 的 聊天 室 服务 器 程序 





#incl 
#incl 
#incl 
#incl 
#incl 
#incl 
#incl 
#incl 


ude=s 


ude=s 


ude=e 





ude=st 


ys/socket.h> 


ude=netinet/in.h> 
ude=arpa/inet.h> 
ude=assert.h> 


tdio.h> 


ude=unistd.h> 


rrno.h> 
下 于 用 可 这 





#inc] 
#incl 
#incl 
#incl 
#incl 
#incl 
#incl 
#incl 


#define USE 


#def 


ude=s 
ude=s 
ude=s 
ude=s 
ude=s 
ude=s 
ude=f 











ude=f 


cntl ,有 > 
tdl1ib,.h> 
ys/epoll.hn> 
ignal.nhn> 
ys/wait.h> 
ys/mman.h> 
ys/stat.h> 
Cntl hi 

















'R LIMIT 5 











#def 
#def 
#def 





/* 处 理 一 


stru 
{ 

sock 
int 





L M 








M 
ine BUFFER SIZE 1024 
ine FD T 


65535 





























ine MAX EVENT NUMBER 1024 














ijne PROCESS LIMIT 65536 





个 客户 连接 必要 的 数据 */ 





ct client data 





addr in address;/* 客 户 端 的 socket 地 址 */ 


Connfd: 





/*socket 文 件 描述 符 */ 














pid t piqd;/* 处 理 这 个 连接 的 子 进程 的 PID*/ 





int pipefdlIl 














2];/* 和 父 进 程 通信 用 的 管道 */ 














上 


static 


const char*shm name="/my shm"; 



































int sig pipefd[2]; 
int epollfd; 

int listenfdqd; 

int shmfd; 


char*share mem=0; 








/* 客 户 连接 数组 。 进 程 用 客户 连接 的 编号 来 索引 这 个 数组 ， 即 可 取得 相关 的 客户 连接 数据 


i/ 














client data*users=0;} 


/* 子 进程 和 客户 连接 的 映射 关系 表 。 用 进程 的 PID 来 索引 这 个 数组 ， 即 可 取得 该 进程 所 处 














= 
































里 的 客户 连接 的 编写 */ 


int*sub process=0; 


二 JE :USEC 


/* 当 前 客户 数量 */ 


r Count=0; 





bool stop child=false; 
int setnonblocking (int fd) 


























int old option=fcntl (fd,F GETFL); 
int new option=old option|O NONBLOCK; 



































cntl (fd,F SETFL,new option); 


return old option; 




















void addfd(int epollfd,int fd) 


{ 


epoll event event; 








event.data.fd=fd; 
vents=EPOLLIN|EPOLLET; 
































Vent.. 




















epoll ctl (epollfdqd, EPOLL CTL ADD, fd, &event); 


setnonb 
} 

void si 
{ 

int SaV 
二 -msg 
send (si 











locking (fqd); 
g handler (int sig) 


©_ errno=errno; 


=sig; 





g pipefd[1], (char*) &msg,1,0); 








rrno=s 
} 

void ad 
{ 
SC 
memset ( 
sa.sa hh 





ave errno; 


dsig(int sig,void(*handler) (int),bool restart=true) 








sigaction sa; 
sa,'\0',sizeo 
andler=handler; 





(sa) ); 








if (rest 
{ 
Sa.Sa 1 
} 
Sigfil] 
assertl( 











art) 





lags|=SA RESTART; 


set (&sa.sa mask); 
sigaction(sig,&sa,NULL) !=-1); 





} 


void del resource () 





lose 
lose 


{ 
外 (sig Pipe 
G ( 
ClLose (] 
C ( 
S 


sig pipef 
istenfd); 
lose (epollfd); 
hm unlink (shm name); 
delete[lusers; 
delete[]sub process; 









































} 

/* 停 止 一 个 子 进程 */ 
void child term handl 
{ 
stop chil 
} 

/* 子 进程 运行 的 函数 。 














d=true; 





er (int sig) 











参数 idqx 指 出 该 子 进 程 处 理 











的 客户 连接 的 编号 ，users 是 保存 所 有 








客户 连接 数据 的 数组 ， 参 数 share_mem 指 出 共享 内 存 的 起 始 地 址 */ 


int run childl(in 


idx,client da 








{ 

epoll event event 
/* 子 进程 使 用 I/0 复 

的 管道 文件 描述 符 */ 
int child epoll 


assert (child epo] 












































Ed 





S [MAX 





PB 





EVE 





'NT NUM 














ta*users,char*share mem) 


ER]; 











技术 来 同时 监 监听 两 个 文件 描述 符 : 





客户 连接 socket、 与 父 进程 ; 











fd=epoll create (2) ; 


二 一] 





int connftdq=users [1qx] 
addfd (child epo] 
int pipefd=users 
addfd (child epo] 











[idx] 

















lfd,conn 


lfd,pipe 


.Connf 
fd 
.Pipef 
eh 


~ 一 











int ret; 














/* 子 进程 需 








要 设置 自己 的 信号 处 理 函数 */ 

















GTE 











addsig(S 
while(!stop chil 
{ 


int number=epol] 





i 


qd) 


wait (child epoll 








a 
{ 
printf ("epoll 
break; 

} 

for(int i=0; 


{ 





fa 











( (number<=0)&& (errno!=F 











NTR)) 





iLUuUreNn™).s 


i<number;i++) 


handler,f 


alse); 





fd,events,MAX 








EVE 





'NT NUMI 





BE 





ER, 








int sock 


fd=events[ 


i] .data. 





fqd; 














/* 本 子 进 各 





旦 负责 的 客户 连接 有 数据 到 达 */ 














直下 


((sockf 


d==connf 


d) && (events [i] 


.events&k 








EPOLL 





{ 





memset (share meml 


| dx* 





BUFFE 








'R SIZE 











/* 将 客户 数据 读 取 到 对 应 的 刘 


卖 缓存 中 。 该 读 


'\0 1 
缓存 是 共 


7 BUFFE 





N)) 











ZE 








P) ， 
享 内存 隔 一 段 ， 它 开始 于 


idx*BUFFER S 














NN 




















Ey 


ret=recyv (conni 


f(ret=0) 


NN 





处 ， 长 度 为 BUFFER S 











BUFFER 



































f (errno!= 





EAGAIN) 











一 0 ———— FHF- F- 
Ck 


top child=true; 


lse if (ret==0) 


stop child=true; 


} 


else 





{ 
/* 成 功 读 取 客户 数据 后 就 通知 主 进 程 ( 通 过 管 i 


send (pipefd, (char*) &idx,sizeof 





} 
} 








/* 主 进程 通知 本 进程 (通过 管道 ) 将 第 client 个 客户 的 数据 发 送 到 本 进程 负 




















fd, Share memt+idx* 



































SIZE, BUFFER S 














漠 
二 这 
[出 
上 
光 
mt 





else if((sockfd==pipefd) && (events[i] .events&EPOLL 


{ 











int client=0; 


/* 接 收 主 进程 发 送 来 的 数 扩 


ret=recv (SOCKI1 








f (ret=0) 




















f (errno!= 








一 0， 一 —— 0 HF- F- 


EAGAIN) 


top child=true; 


lse if (ret==0) 


stop child=true; 


} 


else 


{ 





send (connfd, share memt+client*] 

















BUFFER SIZE 





fd, (char*) &client,sizeo 











局 ， 即 有 客户 数据 到 达 的 连接 的 编号 */ 





Ff (client),0); 








BUFF 





ER 














10); 





} 

} 

else 

{ 
continue; 


} 





E10 


EE 守节 。 因 此 ， 各 个 客户 连接 的 读 缓存 是 共享 的 








N)) 





ig 


lose (connf 
lose (pipef 
lose(child epollfd); 








return 0; 








Q 
Q 


) 
) 


r 
六 





int main(int argc,char*argv[]) 

{ 

if (argc==2) 

{ 

printf("usage:%s ip address port number\n",basename (argv{[0])); 





return 1; 


} 


const char*ip=argv[1]; 


in 








Int, ets=0> 
struct sockaddr in address; 


bzero (&address,sizeo 


七 port=atoi (argv [2]); 

















address.sin family=AF INET 
inet pton (A 


address.sin porti 














listenfd=so 
assert (listenfd>=0)， 
ret=bind(1i 












































assert (ret!=-1);} 
ret=listenl( 


aSsser 


users=new client datalUs 
sub process=new int[PROC 











listenfd,5); 














bE (Et = 
user count= 


r 








M 





f (adqdqress) ) 


F INET,ip, address.sin addr); 
t=htons (port); 
Cket (PE NET, SOCK STREAM,0); 





stenfd, (struct sockaddr*) &address,sizeo 





ER _ 


下 本 下 由 过 





ESS 工 








亚 | 























{ 


sub Process [1 


for (int i=0;i<PROCESS LIM 


epoll event 
epollfd=epo 


assert (epol] 
addfdqd (epoll] 


























_create (5); 
EQ) 




















fd-listerntd}.s 





ret=socketp 
assert (ret! 
setnonblock 


addfdqd (epoll 











air(PF UNIX,SOCK STR 


= 二 


正名 生 半 二 ) 








ing (sig pipefd 
[ 











addsig (SIGC 
addsig (SIGT 


addsig (SIG 


fd,sig pipefd 























ERM, sig handle 


[ 
0 
HLD, sig handler 
区 
NT, sig handler) 


























addsig (SIGP 


bool stop server= 


PE, SIG IGN); 
false; 














六 








events [MAX EVENT NUMBER] ; 











EAM, 0, sig pipefd); 





f (address) );，; 





bool terminate=false; 
/* 创 建 共享 内 存 ， 作 为 所 有 客户 socket 连 接 的 读 缓 存 */ 
shmfd=shm open (shm name O CREAT|O RDWR,， 0666) 
assert (shmfd!=-1); 
ret=ftruncate (shmfd,USER LIMIT*BUFFER SIZE); 
assert (ret!=-1); 
share mem= 
(char*)mmap (NULL, USER LIMIT*BUFFER SIZE,PROT READ|PROT WRITE,MAP SHARI 
assert (share mem!=MAP FAILED); 
close (shmfd); 
whilel(!stop server) 
{ 
int number=epoll wait (epollfd,events,MAX EVENT NUMBER,-1); 
if((number<0)&&(errnol=EINTR) ) 
{ 
Printf("epol1 failure\n"); 
break; 
} 
for(int i=0;i<~number;i++) 
{ 
int sockfd=events[i].data.fd; 
/* 新 的 客户 连接 到 来 */ 
if (sockfd==]istenfd) 
{ 
struct sockaddr in client address; 
socklen t client addrlength=sizeof (client address); 
int connfd=accept (listenfd, (struct sockaddr*) 
&client address, &client addrlength); 
if (connfd<=0) 
{ 
printf ("errno is:%d\n",errno); 
continue; 
} 
if(user count~>=USER LIMIT) 
{ 
const char*info="too many users\n"; 
printtl "Ss" ,Linto) 
send (conn 人 
close (connfd); 
a 



















































































































































































































































































/保存 第 user count 个 客户 连接 的 相关 数据 */ 


users [user_ count].address=client address; 

users[luser count].connfd=connfd; 

/* 在 主 进程 和 子 进程 间 建立 管道 ， 以 传递 必要 的 数据 */ 

ret=socketpair (PF UNIX,SOCK STREAM,0O,usersl[luser count] .pipefd); 
assert (ret!=-1);) 

Bid t: PLd=FOrkK() 
























































if (pid<=0) 








close(connfdq) ， 
continue; 





Se Tf (lds=0) 





lose 
Ose 








istenfd); 

lose(lusers[luser count] .pipefd[0]); 

lose(sig pipefd[0]); 

lose(sig pipefd[1]); 

run child(user count,users,share mem); 

munmap ((void*) share mem,USER LIMIT*BUFFER SIZE); 
exit (0) ， 











( 
(] 
( 
( 





何人 DT 






































lse 





e 

{ 

close (connfd); 

close (users[luser count].pipefd[1]); 
addfd(epollfd,users[luser count].pipefd[0]); 
users [user count] .pid=pid; 


/* 记 录 新 的 客户 连接 在 数组 users 中 的 索引 值 ， 建 立 进 程 pid 和 该 索引 值 之 间 的 映射 关系 












































sub process[pidl=user count， 
USer COUNt++? 

} 

} 

/* 处 理 信 
else if 
{ 

Lint Sld: 

char signals[1024]; 
ret=recv (sig pipefd[0],signals,sizeof (signals),0); 
if (ret==-1) 

{ 

continue; 

} 

else if (ret==0) 

{ 

continue; 

} 

else 

{ 

for(int i=0;i<ret;++i) 

{ 

switch(signals[i]) 


{ 





mh TE 


号 事件 */ 
( (sockf 


























d==sig pipefd[0])&& (events[i] .events&EPOLLIN)) 















































/* 子 进程 退出 ， 表 示 有 茶 个 客户 端 关 闭 了 连接 */ 


case SIGCHL 
{ 

pid t pigd; 
int stat; 





D» 





while( (pid=waitpid(-1,&stat,WNOHANG))>0) 





{ 

/* 用 子 进程 的 pid 取 得 被 关闭 的 客户 连接 的 编号 */ 
int del user=sub 2 

sub process[pid]=-1 











continue; 























a ee _user~>USER LIMIT)) 


/* 清 除 第 del_user 个 客户 连接 使 用 的 相关 数据 */ 














_user] 


.pipef 























epoll ctl (epollfd,EPOLL CTL DEL,usersldel 
close (usersldel user] .pipefd[0]) ; 

users [qel userl=users[--user count]; 

sub process[lusers[del user] .pidl=del user; 








Case SIGTERM: 
Case SIGINT: 



































f(terminate& &user count==0) 


top Server=truey 


/* 结 束 服务 器 程序 */ 


printf ("kil] 








all the clilgd now\n"); 





{ 





stop server=t 


break; 
} 


if (user count 


for (int i=0; 





1 


==0) 


<user count;++i) 





{ 


int pid=users[i] .pigd; 





kill (pid,s 





GTE 





RM) ， 





} 





break; 

} 
default: 
{ 

break; 

} 





terminate=true; 


QL0]v0) 7 


i 


/* 某 个 子 进程 向 父 进程 写 入 了 数据 */ 
lse if(events[i] .events&EPOLLIN) 
{ 
int child=0; 
/* 读 取 管 道 数据 ，chi1lg 变 量 记 录 了 是 哪个 客户 连接 有 数据 到 达 */ 
ret=recv (sockfd, (char*) &child,sizeof (child),0); 
printf("read data from child accross pipe\n"); 
if (ret==-1) 
{ 
continue; 
} 
else if (ret==0) 
{ 
continue; 
} 
else 
{ wk 
/* 回 除 负责 处 理 第 chilg 个 客户 连接 的 子 进程 之 外 的 其 他 子 进程 发 送 消息 ， 通 知 它们 有 客 
户 数 据 要 写 */ 
for (int j=0;j<user count;++j) 
{ 
if(users[j] .pipefd[0]!'=sockfdqd) 
{ 
printf("send data to child accross pipe\n"); 
send(users[j] .pipefd[0], (char*) &cnild, 
sizeof (child),0); 





























































































































} 
} 
} 
} 
} 
del resource(); 


return 0; 


} 











上 面 的 代码 有 两 点 需要 注意 : 





口 虽然 我 们 使 用 了 共 至 内 存 ， 但 每 个 子 进 程 都 只 会 往 自 己 所 处 理 的 





客户 连接 所 对 应 的 那 一 部 分 读 缓存 中 写 入 数据 ， 所 以 我 们 使 用 共 至 内 存 
的 目的 只 是 为 了 “共享 读 "。 因 此 ， 每 个 子 进程 在 使 用 共享 内 存 的 时 候 都 
无 须 加 锁 。 这 样 做 符合 “聊天 室 服务 器 ”的 应 用 场景 ， 同 时 提高 了 程序 性 


全 已 
月 上。 











口 我 们 的 服务 器 程序 在 局 动 的 时 候 给 数组 users 分 配 了 足够 多 的 空 
间 ， 使 得 它 可 以 存储 所 有 可 能 的 客户 连接 的 相关 数据 。 同 样 ， 我 们 一 次 
性 给 数组 sub_process 分 配 的 空间 也 足以 存储 所 有 可 能 的 子 进程 的 相关 数 
据 。 这 是 牺牲 空间 换取 时 间 的 义 一 例子 。 


13.7” 消 恩 队 列 


消息 队列 是 在 两 个 进程 之 间 传 递 二 进 制 块 数据 的 一 种 简单 有 效 的 方 
式 。 每 个 数据 块 都 有 一 个 特定 的 类 型 ， 接 收 方 可 以 根据 类 型 来 有 选择 地 
接收 数据 ， 而 不 一 定 像 管道 和 命名 管道 那样 必须 以 先进 先 出 的 方式 接收 
数据 。 





Linux 消 息 队 列 的 API 都 定义 在 sys/msg.h 头 文件 中 ， 包 括 4 个 系统 调 
用 : msgget、msgsnd、msgrcv 和 msgctl。 我 们 将 依次 讨论 之 。 


13.7.1 msgget 系 统 调用 


msgget 系 统 调用 创建 一 个 消息 队列 ， 或 者 获取 一 个 已 有 的 消息 队 
列 。 其 定义 如 下 : 





#include=<=sys/msg.h> 
int msgget (key 七 key,int msgflg); 





和 semget 系 统 调用 一 样 ，key 参 数 是 一 个 键 值 ， 用 来 标识 一 个 全 局 
唯一 的 消息 队列 。 


msgflg 参 数 的 使 用 和 含义 与 semget 系 统 调用 的 sem_flags 参 数 相 同 。 


msgget 成 功 时 返回 一 个 正 整数 值 ， 它 是 消息 队列 的 标识 符 。msgget 


失败 时 返回 -1， 并 设置 ermo。 


如 果 msgget 用 于 创建 消息 队列 ， 则 与 之 关联 的 内 核 数据 结构 
msdqid_ds 将 被 创建 并 初始 化 。msqid_ds 结 构 体 的 定义 如 下 : 








struct msqid ds 











struct ipc perm msg perm;/* 消 息 队 列 的 操作 权限 */ 
time t msg stime;/* 最 后 一 次 调用 msgsngd 的 时 间 */ 
time t msg rtime;/* 最 后 一 次 调用 msgrcv 的 时 间 */ 
time t msg ctime;/* 最 后 一 次 被 修改 的 时 间 */ 

| long msg_cbytes;/* 消 息 队 列 中 已 有 的 字 节 数 */ 
msgqnum 上 t msg_qnum;/* 消 息 队 列 中 己 有 的 消息 数 */ 
msglen t msg _qbytes;/* 消 息 队 列 允许 的 最 大 字 节 数 */ 
pid t msg lspid;/* 最 后 执行 nsgsnd 的 进程 的 PID*/ 
pid t msg lrpid;/* 最 后 执行 nsgrcv 的 进程 的 PID*/ 

}; 
























































13.7.2 msgsnd 系 统 调用 


msgsnd 系 统 调 用 把 一 条 消息 添加 到 消息 队列 中 。 其 定义 如 下 : 





#include=<=sys/msg.h> 
int msgsnd (int msqid,const void*msg ptr,size t msg sz,int msgflg); 








msqid 参 数 是 由 msgget 调 用 返回 的 消息 队列 标识 符 。 


msg_ptr 参 数 指 同 一 个 准备 发 送 的 消 肯 ， 消 明 必 须 被 定义 为 如 下 类 
型 : 








struct msgbuf 


{ 


long mtype;V/x* 消 息 类 型 */ 
char mtext [512];/* 消 息 数据 */ 
}; 














其 中 ，mtype 成 员 指 定 消息 的 类 型 ， 它 必须 是 一 个 正 整 数 。mtext 是 
消息 数据 。msg_sz 参 数 是 消息 的 数据 部 分 (mtext〉 的 长 度 。 这 个 长 度 
可 以 为 0， 表 示 没 有 消息 数据 。 


msgflg 参 数控 制 msgsnd 的 行为 。 它 通常 仅 支 持 IPC_NOWAIT 标 志 ， 
即 以 非 阻塞 的 方式 发 送 消 息 。 默 认 情 况 下 ， 发 送 消 息 时 如 果 消 息 队 列 满 
了 ， 则 msgsnd 将 阻塞 。 若 IPC_NOWAIT 标 志 被 指定 ， 则 msgsnd 将 立即 
返回 并 设置 errno 为 EAGAIN。 


处 于 阻塞 状态 的 msgsnd 调 用 可 能 被 如 下 两 种 民利 情况 所 中 断 : 


口 消息 队列 被 移 除 。 此 时 msgsnd 调 用 将 立即 返回 并 设置 ermo 为 
EIDRM.。 


口 程序 接收 到 信号 。 此 时 msgsnd 调 用 将 立即 返回 并 设置 ermo 为 
EINTR。 


msgsnd 成 功 时 返回 0， 失 败 则 返回 -1 并 设置 erno。msgsnd 成 功 时 将 
修改 内 核 数 据 结构 msqid_ds 的 部 分 字段 ， 如 下 所 示 : 


口 将 msg_qnum 加 1。 


口 将 msg_lspid 设 置 为 调用 进程 的 PID。 


口 将 msg_stime 设 置 为 当前 的 时 间 。 
13.7.3 msgrcv 系 统 调用 


msgrcv 系 统 调 用 从 消息 队列 中 获取 消息 。 其 定义 如 下 : 





#include=<=sys/msg':h> 
int msgrcv (int msqid,void*msg ptr,size t msg sz,long int 
msgtype,int msgflg); 














msqid 参 数 是 由 msgget 调 用 返回 的 消息 队列 标识 符 。 


msg_ptr 参 数 用 于 存储 接收 的 消 电 ，msg_sz 参 数 指 的 是 消息 数据 部 
分 的 长 度 。 


msgtype 人 参数 指定 接收 何 种 类 型 的 消息 。 我 们 可 以 使 用 如 下 几 种 方 
式 来 指定 消 妃 类 型 : 





口 msgtype 等 于 0。 读 取消 息 队 列 中 的 第 一 个 消息 。 


Dmsgtype 大 于 0。 读 取消 息 队 列 中 第 一 个 类 型 为 msgtype 的 消 轧 
(除非 指定 了 标志 MSG_EXCEPT， 见 后 文 ) 。 





Dmsgtype 小 于 0。 读 取消 息 队 列 中 第 一 个 类 型 值 比 msgtype 的 绝对 


值 小 的 消 妃 。 


参数 msgflg 控 制 msgrcv 函 数 的 行为 。 它 可 以 是 如 下 一 些 标志 的 按 位 
或 : 


DIPC_ NOWAIT。 如 果 消 息 队 列 中 没有 消息 ， 则 msgrcv 调 用 立即 返 
回 并 设置 errno 为 ENOMSG 。 


口 MSG_EXCEPT。 如 果 msgtype 大 于 0， 则 接收 消息 队列 中 第 一 个 
非 msgtype 类 型 的 消息 。 


DMSG_NOERROR。 如 果 消 恩 数据 部 分 的 长 度 超 过 了 msg_sz， 束 


处 于 阻 禾 状态 的 msgrcv 调 用 还 可 能 被 如 下 两 种 异常 情况 所 中 断 : 


口 消息 队列 被 移 除 。 此 时 msgrcv 调 用 将 立即 返回 并 设置 ermo 为 
EIDRM.。 


口 程序 接收 到 信号 。 此 时 msgrcv 调 用 将 立即 返回 并 设置 errno 为 
EINTR。 


msgrcv 成 功 时 返回 0， 失 败 则 返回 -1 并 设置 ermno。msgrcv 成 功 时 将 
修改 内 核 数 据 结构 msqid_ds 的 部 分 字段 ， 如 下 上 所 示 : 


口 将 msg_gnum 减 1。 


口 将 msg_lrpid 设 置 为 调用 进程 的 PID。 


口 将 msg_rtime 设 置 为 当前 的 时 间 。 


13.7.4 msgct 系 统 调用 


msgctl 系 统 调 用 控制 消息 队列 的 茶 些 属性 。 其 定义 如 下 : 





#include=<=sys/msg.h> 
int msgctl1 (int msqid,int command,struct msqid ds*buf 





~ 一 
AN。 








msqid 参 数 是 由 msgget 调 用 返回 的 共享 内 存 标识 符 。command 参 数 
指定 要 执行 的 命令 。msgctl 支 持 的 所 有 命令 如 表 13-4 所 示 。 


命 


表 13-4 msgctl 支持 的 命令 














令 msgctl 成 功 时 的 返回 值 
IPC_STAT 将 消息 队列 关联 的 内 核 数据 结构 复制 到 buf (第 3 个 参数 ， 下 同 ) 中 | 0 
TC 将 buf 中 的 部 分 成 员 复 制 到 消息 队列 关联 的 内 核 数 据 结构 中 ， 同 时 
3 内 核 数 据 中 的 msqid_ds.msg_ctime 被 更 新 
( 续 ) 
命 令 msgctl 成 功 时 的 返回 值 
Te iy 立即 移 除 消息 队列 ， 唤 醒 所 有 等 待 读 消息 和 写 消息 的 进程 (这 些 调 6 
用 立即 返回 并 设置 errno 为 EIDRM) 
取 系 统 消息 队列 资源 配置 信息 ， 将 结果 存储 在 buf 中 。 应 用 程序 SE 
a a ei dd | 
IPC_INFO 需要 将 buf 转换 成 msginfo 结 构 体 类 型 来 读 取 这 些 系统 信 息 。 msginfo 经 被 使 用 的 项 的 [= 大 索引 | 值 
结构 体 与 seminfo 类 似 ， 这 里 不 再 效 述 ee 
= ' 类 似 ， 不 过 返回 的 是 已 经 分 配 的 消息 队列 占 4 资源 
Ma lio ee 不 过 返回 的 是 已 经 分 配 的 消息 队列 占用 的 资源 同 IPC INFO 
与 IPC_STAT 类 似 ， 不 过 此 时 msqid 参数 不 是 用 来 表示 消息 队列 标 | 内 核 消息 队列 信息 数组 中 
MSG _STAT | 识 符 ， 而 是 内 核 消 息 队 列 信息 数组 的 索引 《每 个 消息 队列 的 信息 都 是 | 索引 值 为 msqid 的 消息 队列 








该 数组 中 的 一 项 ) 


的 标识 符 


msgctl 成 功 时 的 返回 值 取 决 于 command 参 数 ， 如 表 13-4 所 示 。msgctl 
函数 失败 时 返回 -1 并 设置 errno。 


述 3 种 System V IPC 进 程 间 通 信 方 式 都 使 用 一 个 全 局 唯一 的 键 值 
(key) 来 描述 一 个 共享 资源 。 当 程序 调用 semget、shmget 或 者 msgget 
时 ， 束 创建 了 这 些 共 至 资源 的 一 个 实例 。Linux 提 供 了 ipcs 命 令 ， 以 观察 
当前 系统 上 拥有 哪些 共享 资源 实例 。 比 如 在 测试 机 器 Kongming20 上 执 


行 ipcs 命 令 : 





$sudo ipcs 


key semid owner perms nsems 
0x00000000 196608 apache 600 1 
0x00000000 229377 apache 600 1 
0x00000000 262146 apache 600 1 
0x00000000 294915 apache 600 1 
0x00000000 327684 apache 600 1 
0x00000000 360453 apache 600 1 
0x00000000 393222 apache 600 1 








key msqid owner perms used-bytes messages 











输出 结果 分 段 显 示 了 系统 拥有 的 共享 内 存 、 信 号 量 和 消息 队列 资 
源 。 可 见 ， 该 系统 目前 尚未 使 用 任何 共享 内 存 和 消息 队列 ， 却 分 配 了 一 
组 键 值 为 0(IPC_PRIVATE) 的 信号 量 。 这 些 信号 量 的 所 有 者 是 
apache， 因 此 它们 是 由 httpd 服 务 器 程序 创建 的 。 其 中 标识 符 为 393222 的 
信号 量 正 是 我 们 在 13.5.5 小 节 讨 论 的 那个 用 于 在 httpd 各 个 子 进 程 之 间 同 





步 epoll_wait 使 用 权 的 信号 量 。 


此 外 ， 我 们 可 以 使 用 ipbcrm 命 令 来 删除 遗留 在 系统 中 的 共享 资源 。 


13.9 在 进程 间 传递 文件 摘 述 符 


由 于 fork 调 用 之 后 ， 父 进程 中 打开 的 文件 描述 符 在 子 进程 中 仍然 保 
持 打开 ， 所 以 文件 描述 符 可 以 很 方便 地 从 父 进程 传递 到 子 进 程 。 需 要 注 
意 的 是 ， 传 递 一 个 文件 描述 符 并 不 是 传递 一 个 文件 描述 符 的 值 ， 而 是 要 
在 接收 进程 中 创建 一 个 新 的 文件 描述 符 ， 并 且 该 文件 描述 符 和 发 送 进程 
中 被 传递 的 文件 描述 符 指 癌 内 核 中 相同 的 文件 表 项 。 





那么 如 何 把 子 进程 中 打开 的 文件 描述 符 传 递 给 父 进程 呢 ? 或 者 更 通 
俗 地 说 ， 如 何在 两 个 不 相干 的 进程 之 间 传 递 文件 描述 符 呢 ? 在 Linux 
下 ， 我 们 可 以 利用 UNIX 域 socket 在 进程 间 传 递 特殊 的 辅助 数据 ， 以 实现 
文件 描述 符 的 传递 外 。 代 码 清单 13-5 给 出 了 一 个 实例 ， 它 在 子 进 程 中 打 
开 一 个 文件 描述 符 ， 然 后 将 它 传递 给 父 进程 ， 父 进程 则 通过 读 取 该 文件 
描述 符 来 获得 文件 的 内 容 。 





代码 清单 13-5 ”在 进程 间 传 递 文件 描述 符 





#include=sys/socket.h> 

#include<=<fcntl.h> 

#include=stdio.h> 

#include=<=unistd.n> 

#include=stdlib.n> 

#include=<=assert.n> 

#include=string.h> 

static const int CONTROL LEN=CMSG LEN (sizeof (int)); 

/x* 发 送 文 件 描述 符 ，fd 参 数 是 用 来 传递 信息 的 UNIX 域 socket，fd to _send 参 数 是 待 发 
送 的 文件 描述 符 */ 





















































void send fd(int fqd,int fd to _ seng) 
{ 
struct iovec iov[1]; 
struct msghdr msg; 
char buf[0]; 
iov[0] .iov base=bu 
iov[0] .iov len=1; 
msg.msg name=NULL; 
msg.msg namelen=0; 
msg.msg iov=iov; 
msg.msg iovilen=1; 
cmsghdr cm; 
cm.cmsg len=CONTROL LEN; 
cm.cmsg level=SOL SOCKET; 

cm .Cemsg type=SCM RIGHTS; 

* (int*)CMSG DATA(&cm)=fd to send; 
msg.msg control=&cm; /* 设 置 辅助 数据 */ 
msg.msg controllen=CONTROL LEN; 
Rs Cmsg, 0); 




















mh 












































/接收 目标 文件 描述 符 * / 
int recv fdl(int fq) 
{ 
struct iovec iov[l1]; 
struct msghdr msg; 
char buf[0]; 
iov[0] .iov base=bu 
iov[0] .iov len=1; 
msg.msg name=NULL; 
msg.msg namelen=0; 
msg.msg iov=iov; 
msg.msg iovilen=1; 
cmsghdr cm; 
msg.msg control=& cm; 
msg.msg controllen=CONTROL LEN; 
recvmsg (fd, &msg, 0); 
int fq to read=* (int*)CMSG DATA(&cm); 
return fd to read; 
































mh 
































int main () 





int pipefd[2]; 
int fd to pass=0; 
/* 创 建 父 、 子 进程 间 的 管道 ， 文 件 描述 符 pipefd[0] 和 pipefq[1] 都 是 UNIX 域 
socket*/ 
int ret=socketpair (PF UNIX,SOCK DGRAM,0,pipefd); 
assert (ret!=-1); 
pid it: pLd=fOrkKk() 



























































assert (pid~>=0)，; 
if (pid==0) 
{ 
close (pipefd[0]); 
fd to pass=open("test.txt",O RDWR,0666); 
A 子 进程 通过 管道 将 文件 描述 符 发 送 到 父 进程 。 如 果 文 件 test .txt 打 开 失 败 ， 则 子 进 程 
将 标准 输入 文件 描述 符 发 送 到 父 进 程 */ 
send fdl(pipefd[1], (fd to pass>~>0)?fd to pass:0); 
close (fdq to pass); 
exit (0) 
} 
close (pipefd[1]); 
fq to pass=recv fd (pipefqd[0]1);/* 父 进程 从 管道 接收 目标 文件 捅 述 符 */ 
char buf{[1024]; 






























































































































































memset (buf,'\0',1024); 

read (fq_to_pass,buf,1024);/* 读 目标 文件 描述 符 ， 以 验证 其 有 效 性 */ 
printf("I got fdqsq and datas%s\n",fqd to pass,buf); 

Close (fdq to pass); 


} 





第 14 章 ”多 线程 编程 


早期 Linux 不 支持 线程 ， 直 到 1996 年 ，Xavier Leroy 等 人 才 开 发 出 第 
一 个 基本 符合 POSIX 标 准 的 线程 库 LinuxThreads。 但 LinuxThreads 效 率 低 
而 且 问 题 很 多 。 自 内 核 2.6 开 始 ，Linux 才 真正 提供 内 核 级 的 线程 支持 ， 
并 有 两 个 组 织 致 力 于 编写 新 的 线程 库 : NGPT (Next Generation POSIX 
Threads) 和 NPTL (Native POSIX Thread Library) 。 不 过 前 者 在 2003 年 
就 放弃 了 ， 因 此 新 的 线程 库 就 称 为 NPTL。NPTL 比 LinuxThreads 效 率 
高 ， 且 更 符合 POSIX 规 范 ， 所 以 它 已 经 成 为 glibc 的 一 部 分 。 本 书 所 有 线 
程 相关 的 例 程 使 用 的 线程 库 都 是 NPTL。 





本 章 要 讨论 的 线程 相关 的 内 容 部 属于 POSIX 线 程 〈 简 称 pthread)〉 标 
准 ， 而 不 局 限于 NPTL 实 现 ， 具 体 包括 : 


口 创建 线程 和 结束 线程 。 
口 读 取 和 设置 线程 属性 。 
口 PZOSIX 线 程 同步 方式 ;，POSIX 信 和 号 量 、 互 斥 锁 和 条 件 变量 。 


在 本 章 的 最 后 ， 我 们 还 将 介绍 在 Linux 环 境 下 ， 库 函数 、 进 程 、 信 
号 与 多 线程 程序 之 间 的 相互 影 啊 。 


14.1 _ Linux 线程 概述 


14.1.1 ”线程 模型 








线程 是 程序 中 完成 一 个 独立 任务 的 完整 执行 序列 ， 即 一 个 可 调度 的 
实体 。 根 据 运 行 环境 和 调度 者 的 吴 份 ， 线 程 可 分 为 内 核 线程 和 用 户 线 
程 。 内 核 线程 ， 在 有 的 系统 上 也 称 为 LWP (Light Weight Process， 轻 量 
级 进程 》， 运 行 在 内 核 空间 ， 由 内 核 来 调度 ， 用 户 线 程 运 行 在 用 户 空 
间 ， 由 线程 库 来 调度 。 当 进程 的 一 个 内 核 线程 获得 CPU 的 使 用 权时 ， 它 
就 加 载 并 运行 一 个 用 户 线程 。 可 见 ， 内 核 线程 相当 于 用 户 线 程 运行 
的 “容器 ”。 一 个 进程 可 以 拥有 M 个 内 核 线程 和 N 个 用 户 线程 ， 其 中 
M<N。 并 且 在 一 个 系统 的 所 有 进程 中 ，M 和 N 的 比值 都 是 固定 的 。 按 照 
M:N 的 取 值 ， 线 程 的 实现 方式 可 分 为 三 种 模式 : 完全 在 用 户 空 间 实现 、 
完全 由 内 核 调度 和 双 层 调度 〈two level scheduler) 。 











完全 在 用 户 空 间 实 现 的 线程 无 须 内 核 的 文 持 ， 内 核 甚至 根本 不 知道 
这 些 线程 的 存在 。 线 程 库 负 责 管理 所 有 执行 线程 ， 比 如 线程 的 优先 级 、 
时 间 记 等。 线程 库 利 用 longjmp 来 切换 线程 的 执行 ， 使 它们 看 起 来 像 
征 “ 并 发 ”执行 的 。 但 实际 上 内 核 仍然 是 把 整个 进程 作为 最 小 单位 来 调度 
的 。 换 句 话 说， 一 个 进程 的 所 有 执行 线程 共 且 该 进程 的 时 间 片 ， 它 们 对 
外 表现 出 相同 的 优先 级 。 因 此 ， 对 这 种 实现 方式 而 言 ， N=1， 即 M 个 用 
户 空 间 线 程 对 应 1 个 内 核 线程 ， 而 该 内 核 线程 实际 上 就 是 进程 本 身 。 完 











全 在 用 户 空 间 实现 的 线程 的 优点 是 : 创建 和 调度 线程 都 无 须 内 核 的 干 
预 ， 因 此 速度 相当 快 。 并 且 由 于 它 不 占用 额外 的 内 核资 源 ， 所 以 即使 一 
个 进程 创建 了 很 多 线程 ， 也 不 会 对 系统 性 能 造成 明显 的 影响 。 其 缺点 
是: 对 于 多 处 理 器 系统 ， 一 个 进程 的 多 个 线程 无 法 运行 在 不 同 的 CPU 
上 ， 因 为 内 核 是 按照 其 最 小 调度 单位 来 分 配 CPU 的 。 此 外 ， 线 程 的 优先 
级 只 对 同一 个 进程 中 的 线程 有 效 ， 比 较 不 同 进程 中 的 线程 的 优先 级 没有 
意义 。 早 期 的 们 克利 UNIX 线 程 就 是 采用 这 种 方式 实现 的 。 














完全 由 内 核 调 度 的 模式 将 创建 、 调 度 线程 的 任务 都 交 给 了 内 核 ， 运 
行 在 用 户 空间 的 线程 库 无 须 执行 管理 任务 ， 这 与 完全 在 用 户 空间 实现 的 
线程 恰恰 相反 。 二 者 的 优 缺 点 也 正好 互 换 。 较 早 的 Linux 内 核对 内 核 线 
程 的 控制 能 力 有 限 ， 线 程 库 通 常 还 要 提供 额外 的 控制 能 力 ， 尤 其 是 线程 
同步 机 制 ， 不 过 现代 Linux 内 核 已 经 大 大 增强 了 对 线程 的 支持 。 完 全 由 
内 核 调度 的 这 种 线程 实现 方式 满足 M:N=1:1， 即 1 个 用 户 空间 线程 被 映 
射 为 1 个 内 核 线程 。 








双 层 调度 模式 是 前 两 种 实现 模式 的 混合 体 ， 内 核 调 度 M 个 内 核 线 
程 ， 线 程 库 调度 N 个 用 户 线 程 。 这 种 线程 实现 方式 结合 了 前 两 种 方式 的 
优点 : 不 但 不 会 消耗 过 多 的 内 核资 源 ， 而 且 线程 切换 速度 也 较 快 ， 同 时 
它 可 以 充分 利用 多 处 理 顺 的 优势 。 


14.1.2 ” Linux 线程 库 


Linux 上 两 个 最 有 名 的 线程 库 是 LinuxThreads 和 NPTL， 它 们 都 是 采 
用 1:1 的 方式 实现 的 。 由 于 LinuxThreads 在 开发 的 时 候 ，Linux 内 核对 线 
程 的 支持 还 非常 有 限 ， 所 以 其 可 用 性 、 稳 定性 以 及 POSIX 兼 容 性 都 远 远 
不 及 NPTL。 现 代 Linux 上 默认 使 用 的 线程 库 是 NPTL。 用 户 可 以 使 用 如 
下 命令 来 查看 当前 系统 上 所 使 用 的 线程 库 : 








Sgetconf GNU LIBPTHREAD VERSION 
NPTL 2.14.90 


























LinuxThreads 线 程 库 的 内 核 线程 是 用 clone 系 统 调用 创建 的 进程 模拟 
的 。clone 系 统 调用 和 fork 系 统 调 用 的 作用 类 似 : 创建 调用 进程 的 子 进 
程 。 不 过 我 们 可 以 为 dlone 系 统 调用 指定 CLONE_THREAD 标 志 ， 这 种 情 
况 下 它 创 建 的 子 进程 与 调用 进程 共享 相同 的 虚拟 地 址 空间 、 文 件 描述 符 
和 信号 处 理 函 数 ， 这 些 都 是 线程 的 特点 。 不 过 ， 用 进程 来 模拟 内 核 线程 
会 导致 很 多 语义 问题 ， 比 如 : 


口 每 个 线程 拥有 不 同 的 PID， 因 此 不 符合 POSIX 规 范 。 








口 Linux 信 号 处 理 本 来 是 基于 进程 的 ， 但 现在 一 个 进程 内 部 的 所 有 
线程 都 能 而 且 必 须 处 理 信号 。 





D 用 户 ID、 组 ID 对 一 个 进程 中 的 不 同 线程 来 说 可 能 是 不 一 样 的 。 








口 程序 产生 的 核心 转 储 文件 不 会 包含 所 有 线程 的 信息 ， 而 只 包含 产 
生 该 核心 转 储 文件 的 线程 的 信息 。 


口 由 于 每 个 线程 都 是 一 个 进程 ， 因 此 系统 允许 的 最 大 进程 数 也 就 是 
最 大 线程 数 。 





LinuxThreads 线 程 库 一 个 有 名 的 特性 是 所 谓 的 管理 线程 。 它 是 进程 
中 专门 用 于 管理 其 他 工作 线程 的 线程 。 其 作用 包括 : 


口 系统 友 送 给 进程 的 终止 信号 先 由 管理 线程 接收 ,省 理 线 程 再 给 其 
他 工作 线程 友 送 同样 的 信号 以 终止 它们 。 








口 当 终 止 工作 线程 或 者 工作 线程 主动 退出 时 ， 管 理 线程 必须 等 待 它 
们 结束 ， 以 避免 僵尸 进程 。 


口 如 果 主 线程 先 于 其 他 工作 线程 退出 ， 则 管理 线程 将 阻塞 它 ， 直 到 
所 有 其 他 工作 线程 都 结束 之 后 才 唤 醒 


口 回 收 每 个 线程 堆栈 使 用 的 内 存 。 








管理 线程 的 引入 ， 增 加 了 额外 的 系统 开销 。 并 且 由 于 它 只 能 运行 在 
一 个 CPU 上 ， 所 以 LinuxThreads 线 程 库 也 不 能 充分 利用 多 处 理 器 系统 的 
优势 。 





要 解决 LinuxThreads 线 程 库 的 一 系列 问题 ， 不 仅 需 要 改进 线程 库 ， 
最 主要 的 是 需要 内 核 提 供 更 完善 的 线程 支持 。 因 此 ，Linux 内 核 从 2.6 版 
本 开始 ， 提 供 了 真正 的 内 核 线 程 。 新 的 NPTL 线 程 库 也 应 运 而 生 。 相 比 





LinuxThreads，NPTL 的 主要 优势 在 于 : 


口内 核 线程 不 再 是 一 个 进程 ， 因 此 避免 了 很 多 用 进程 模拟 内 核 线程 
导致 的 语义 问题 。 


口 据 痉 了 管理 线程 ， 终 止 线程 、 回 收 线程 堆栈 等 工作 都 可 以 由 内 核 
来 完成 。 











口 由 于 不 存在 管理 线程 ， 所 以 一 个 进程 的 线程 可 以 运行 在 不 同 的 
CPU 上 ， 从 而 充分 利用 了 多 处 理 器 系统 的 优势 。 


14.2 ”创建 线程 和 结束 线程 


下 面 我 们 讨论 创建 和 结束 线程 的 基础 API。Linux 系 统 上 ， 它 们 都 定 
义 在 pthread.h 头 文件 中 。 


1.pthread_create 


创建 一 个 线程 的 函数 是 pthread_create。 其 定义 如 下 : 





#include<=<=pthread.h> 
int pthread create (pthread t*thread,const 
pthread attr t*attr,void*(*start routine) (void*),void*arg); 





thread 参 数 是 新 线程 的 标识 人 符 ， 后 续 pthread_* 函 数 通过 它 来 引用 新 
线程 。 其 类 型 pthread_t 的 定义 如 下 : 





#include<bits/pthreadtypes.n> 
typedef unsigned long int pthread t; 








可 见 ，pthread_t 是 一 个 整 型 类 型 。 实 际 上 ，Linux 上 几乎 所 有 的 资源 


标识 符 都 是 一 个 整 型 数 ， 比 如 socket、 各 种 System V IPC 标 识 符 等 。 


attr 人 参数 用 于 设置 新 线程 的 属性 。 给 它 传递 NULL 表 示 使 用 默认 线程 
属性 。 线 程 拥有 众多 属性 ， 我 们 将 在 后 面 详细 讨论 之 。start_routine 和 


arg 参 数 分 别 指定 新 线程 将 运行 的 函数 及 其 参数 。 





pthread_create 成 功 时 返回 0， 失 败 时 返回 错误 码 。 一 个 用 户 可 以 打 
开 的 线程 数量 不 能 超过 RLIMIT_NPROC 软 资源 限制 〈 见 表 7-1) 。 此 
外 ， 系 统 上 所 有 用 户 能 创建 的 线程 总 数 也 不 得 超 
过 /proc/sys/kernel/threads-max 内 核 参 数 所 定义 的 值 。 


2.pthread_exit 


线程 一 旦 被 创建 好 ， 内 核 就 可 以 调度 内 核 线 程 来 执行 start_routine 也 | 
数 指 针 所 指 同 的 函数 了 。 线 程 函 数 在 结束 时 最 好 调用 如 下 函数 ， 以 确保 
安全 、 于 净 地 退出 : 








#include<=<=pthread.h> 
void pthread exit (void*retval); 








pthread_exit 函 数 通过 retval 参 数 癌 线程 的 回收 者 传递 其 退出 信息 
它 执行 完 之 后 不 会 返回 到 调用 者 ， 而 且 永 远 不 会 失败 。 


3.pthread_join 


一 个 进程 中 的 所 有 线程 都 可 以 调用 pthread_ join 函数 来 回收 其 他 线程 
《前 提 是 目标 线程 是 可 回收 的 ， 见 后 文 ) ， 即 等 待 其 他 线程 结束 ， 这 类 
似 于 回收 进程 的 wait 和 waitpid 系 统 调用 。pthread_join 的 定义 如 下 : 








#include=<=pthread.h> 
int pthread joinl(pthread 七 thread,void**retval); 











thread 参 数 是 目标 线程 的 标识 符 ，retval 参 数 则 是 目标 线程 返回 的 退 
出 信息 。 该 函数 会 一 直 阻 塞 ， 直 到 被 回收 的 线程 结束 为 止 。 该 函数 成 功 
时 返回 0， 失 败 则 返回 错误 码 。 可 能 的 错误 码 如 表 14-1 所 示 。 





表 14-1 pthread join 函数 可 能 引发 的 错误 码 
错误 码 描 述 
EDEADLK | 可 能 引起 死 锁 。 比 如 两 个 线程 互相 针对 对 方 调用 pthread join， 或 者 线程 对 自身 调用 pthread_join 
EINVAL 目标 线程 是 不 可 回收 的 ， 或 者 已 经 有 其 他 线程 在 回收 该 目标 线程 
ESRCH 目标 线程 不 存在 





4.pthread_cancel 


有 时 候 我 们 希望 异常 终止 一 个 线程 ， 即 取消 线程 ， 它 是 通过 如 下 函 
数 实现 的 : 





#include=<=pthread.h> 
int pthread cancel (pthread t thread); 








thread 参 数 是 目标 线程 的 标识 符 。 该 函数 成 功 时 返回 90， 失败 则 返 
错误 码 。 不 过 ， 接 收 到 取消 请 求 的 目标 线程 可 以 决定 是 否 允 许 被 取消 以 
及 如 何 取消 ， 这 分 别 由 如 下 两 个 函数 完成 : 





#include=<=pthread.h> 
int pthread setcancelstate (int state,int*oldstate); 
int pthread setcanceltype (int type,int*oldtype); 


























这 两 个 函数 的 第 一 个 参数 分 别 用 于 设置 线程 的 取消 状态 (是 否 允 许 
取消 ) 和 取消 类 型 (如 何 取消 ) ， 第 二 个 参数 则 分 别 记录 线程 原来 的 取 


消 状态 和 取消 类 型 。state 参 数 有 两 个 可 选 值 : 


DPTHREAD_ CANCEL ENABLE， 人 允许 线程 被 取消 。 它 是 线程 被 
创建 时 的 默认 取消 状态 。 

DPTHREAD_CANCEL DISABLE， 禁 止 线程 被 取消 。 这 种 情况 
下 ， 如 果 一 个 线程 收 到 取消 请 求 ， 则 它 会 将 请 求 挂 起 ， 直 到 该 线程 允许 
被 取消 。 


type 参 数 也 有 两 个 可 选 值 : 


DPTHREAD_CANCEL ASYNCHRONOUS， 线 程 随时 都 可 以 被 取 
消 。 它 将 使 得 接收 到 取消 请 求 的 目标 线程 立即 采取 行动 。 





DPTHREAD_CANCEL_DEFERRED， 人 允许 目标 线程 推迟 行动 ， 直 
到 它 调 用 了 下 面 几 个 所 谓 的 取消 点 函数 中 的 一 个 : pthread_join、 
pthread_testcancel、pthread_cond_wait、pthread_cond_timedwait、 
sem_wait 和 sigwait。 根 据 POSIX 标 准 ， 其 他 可 能 阻塞 的 系统 调用 ， 比 如 
read、wait， 也 可 以 成 为 取消 点 。 不 过 为 了 安全 起 见 ， 我 们 最 好 在 可 能 
会 被 取消 的 代码 中 调用 pthread_testcancel 函 数 以 设置 取消 点 。 


pthread_setcancelstate 利 pthread_setcanceltype 成 功 时 返回 9， 失败 则 
返回 错误 码 。 


14.3 ”线程 属性 


pthread_attr_t 结 构 体 定义 了 一 套 完 整 的 线程 属性 ， 如 下 所 示 : 





#include<bits/pthreadtypes.n> 
#define SIZEOF PTHREAD ATTR T 36 
typedef union 

{ 

char size[ SIZEOF PTHREAD ATTR T]; 
long int align; 

}pthread attr t; 









































可 见 ， 各 种 线程 属性 全 部 包含 在 一 个 字符 数组 中 。 线 程 库 定义 了 一 
系列 函数 来 操作 pthread_attr_t 类 型 的 变量 ， 以 方便 我 们 获取 和 设置 线程 
属性 。 这 些 函 数 包 括 : 





#include=<=pthread.h> 
/* 初 始 化 线程 属性 对 象 */ 
int pthread attr _ init (pthread attr t*attr); 
/* 销 毁 线程 属性 对 象 。 被 销毁 的 线程 属性 对 象 只 ee 能 继续 使 用 */ 
int pthread attr destroy(pthread attr t*attr); 
A F 面 这 些 函 狐 用 于 葵 取 和 设置 线程 属性 对 象 的 某 不 属 */ 
int pthread attr getdetachstate (const 
pthread attr t*attr,int*detachstate); 
int pthread attr setdetachstate (pthread attr t*attr,int 
tate); 
int pthread attr getstackaddr (const 
pthread attr t*attr,void**stackaddr); 
int pthread attr setstackaddr (pthread attr t*attr,void*stackaddr); 
int pthread attr getstacksize (const 
pthread attr t*attr,size t*stacksize); 
int pthread attr setstacksize (pthread attr t*attr,size t 
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int pthread attr getstack (const 
pthread attr t*attr,void**stackaddr,size t*stacksize); 
int 








| 


thread attr setstack(pthread attr t*attr,void*stackaddr,size t 

tacksize); 

int pthread attr getguardsize (const 

pthread attr t* attr,size t*guardsize); 

int pthread attr setguardsize (pthread attr t*attr,size t 

guardsize); 

int pthread attr getschedparam(const pthread attr t*attr,struc 

sched param*param); 

int pthread attr setschedparam(pthread attr t*attr,const struc 

sched param*param); 
int pthread attr getschedpolicy(const 

pthread attr t*attr,int*policy); 
int pthread attr setschedpolicy (pthread attr t*attr,int policy); 
int pthread attr getinheritsched(const 

pthread attr t*attr,int*inherit); 
int pthread attr setinheritsched(pthread attr t*attr,int inherit); 
int pthread attr getscope (const pthread attr t*attr,int*scope); 
int pthread attr setscope (pthread attr t*attr,int scope); 


Un 






























































































































































下 面 我 们 详细 讨论 每 个 线程 属性 的 含义 : 


Ddetachstate， 线 程 的 脱离 状态 。 它 有 
PTHREAD_CREATE_JOINABLE 和 PTHREAD_CREATE_DETACH 两 个 
可 选 值 。 前 者 指定 线程 是 可 以 被 回收 的 ， 后 者 使 调用 线程 脱离 与 进程 中 
其 他 线程 的 同步 。 脱 离 了 与 其 他 线程 同步 的 线程 称 为 “脱离 线程 >。 脱 离 
线程 在 退出 时 将 自行 释放 其 占用 的 系统 资源 。 线 程 创建 时 该 属性 的 默认 
值 是 PTHREAD_CREATE_JOINABLE。 此 外 ， 我 们 也 可 以 使 用 
pthread_detach 函 数 直 接 将 线程 设置 为 脱离 线程 。 


口 stackaddr 和 stacksize， 线 程 堆栈 的 起 始 地 址 和 大 小 。 一 般 来 说 ， 
我 们 不 需要 自己 来 管理 线程 堆栈 ， 因 为 Linux 默 认为 每 个 线程 分 配 了 足 
够 的 堆栈 空间 (一 般 是 8 MB) 。 我 们 可 以 使 用 ulimt-s 命 令 来 查看 或 修改 





这 个 默认 值 。 


Dguardsize， 保 护 区 域 大 小 。 如 果 guardsize 大 于 0， 则 系统 创建 线程 
的 时 候 会 在 其 堆栈 的 尾部 额外 分 配 guardsize 字 节 的 空间 ， 作 为 保护 堆栈 
不 被 错误 地 堵 盖 的 区 域 。 如 果 guardsize 等 于 0， 则 系统 不 为 新 创建 的 线 
程 设置 堆栈 保护 区 。 如 果 使 用 者 通过 pthread_attr_setstackaddr 或 
pthread_attr_setstack 函 数 手动 设置 线程 的 堆栈 ， 则 guardsize 属 性 将 被 久 





上 略 。 

Dschedparam， 线 程 调度 参数 。 其 类 型 是 sched_param 结 构 体 。 该 结 
构 体 目前 还 只 有 一 个 整 型 类 型 的 成 员 sched_priority， 该 成 员 表 示 线 
程 的 运行 优先 级 。 


口 schedpolicy， 线 程 调度 策略 。 该 属性 有 SCHED_FIFO、 
SCHED_RR 和 SCHED_OTHER 三 个 可 选 值 ， 其 中 SCHED_OTHER 是 默 
认 值 。 SCHED_RR 表 示 采 用 轮转 算法 (round-robin〉 调度 ， 
SCHED_FIFO 表 示 使 用 先进 先 出 的 方法 调度 ， 这 两 种 调度 方法 都 具备 实 
时 调度 功能 ， 但 只 能 用 于 以 超级 用 户 身 份 运行 的 进程 。 


Dinheritsched， 是 否 继承 调用 线程 的 调度 属性 。 该 属性 有 
PTHREAD_INHERIT_SCHED 和 PTHREAD_EXPLICIT_SCHED 两 个 可 
选 值 。 前 者 表示 新 线程 沿用 其 创建 者 的 线程 调度 参数 ， 这 种 情况 下 再 设 
置 新 线程 的 调度 参数 属性 将 没有 任何 效果 。 后 者 表示 调用 者 要 明确 地 指 


定 新 线程 的 调度 参数 。 


口 sope， 线 程 间 竞争 CPU 的 范围 ， 即 线程 优先 级 的 有 效 范围 。 
POSIX 标 准 定义 了 该 属性 的 PTHREAD_SCOPE_SYSTEM 和 
PTHREAD_SCOPE_PROCESS 两 个 可 选 值 ， 前 者 表示 目标 线程 与 系统 中 
所 有 线程 一 起 竞争 CPU 的 使 用 ， 后 者 表示 目标 线程 仅 与 其 他 隶属 于 同一 
进程 的 线程 郭 争 CPU 的 使 用 。 目 前 Linux 只 文 持 
PTHREAD_SCOPE_SYSTEM 这 一 种 取 值 。 








14.4 POSIX 信 号 量 


和 多 进程 程序 一 样 ， 多 线程 程序 也 必须 考虑 同步 问题 。pthread_join 
可 以 看 作 一 种 简 蛙 的 线程 同步 方式 ， 不 过 很 显然 ， 它 无 法 高 效 地 实现 复 
杂 的 同步 需求 ， 比 如 控制 对 共享 资源 的 独占 式 访 问 ， 又 抑或 是 在 菜 个 条 
件 满 足 之 后 唤醒 一 个 线程 。 接 下 来 我 们 讨论 3 种 专门 用 于 线程 同步 的 机 
制 : POSIX 信 号 量 、 互 斥 量 和 条 件 变量 。 




















在 Linux 上 ， 信 号 量 API 有 两 组 。 一 组 是 第 13 章 讨论 过 的 System V 
IPC 信 号 量 ， 另 外 一 组 是 我 们 现在 要 讨论 的 POSIX 信 和 号 量 。 这 两 组 接口 
很 相似 ， 但 不 保证 能 互 换 。 由 于 这 两 种 信号 量 的 语义 完全 相同 ， 因 此 我 
们 不 再 班 述 信号 量 的 原理 。 


POSIX 信 和 号 量 函数 的 名 字 都 以 seam_ 开 头 ， 并 不 像 大 多 数 线程 函数 那 
样 以 pthread_ 开头 。 常 用 的 POSIX 信 和 号 量 函数 是 下 面 5 个 : 











#include=semaphore.h> 
int sem init(sem t*sem,int pshared,unsigned int value); 
int sem destroy(sem t*sem); 
int sem wait (sem t*sem); 
int sem trywait (sem t*sem); 
t sem Post (sem t*sem); 














int 





些 函数 的 第 一 个 参数 sem 指 向 被 操作 的 信号 量 。 








sem_init 函 数 用 于 初始 化 一 个 未 命名 的 信号 量 〈POSIX 信 号 量 API 文 
持 命名 信号 量 ， 不 过 本 书 不 讨论 它 ) 。pshared 参 数 指定 信号 量 的 类 型 。 
如 果 其 值 为 0， 就 表示 这 个 信号 量 是 当前 进程 的 局 部 信号 量 ， 否 则 该 信 

量 就 可 以 在 多 个 进程 之 间 共 享 。value 参 数 指定 信号 量 的 初始 值 。 此 
外 ， 初 始 化 一 个 已 经 被 初始 化 的 信号 量 将 导致 不 可 预期 的 结 











sem_destroy 函 数 用 于 销毁 信号 量 ， 以 释放 其 占用 的 内 核资 源 。 如 果 
销毁 一 个 正 被 其 他 线程 等 待 的 信号 量 ， 则 将 导致 不 可 预期 的 结果 。 








sem_wait 函 数 以 原子 操作 的 方式 将 信号 量 的 值 减 1。 如 果 信 号 量 的 
值 为 0， 则 sem_wait 将 被 阻塞 ， 直 到 这 个 信号 量具 有 非 0 值 。 








sem_trywait 与 sm_wait 函 数 相 似 ， 不 过 它 始 终 立 即 返回 ， 而 不 论 被 
操作 的 信号 量 是 个 具有 非 0 值 ， 相 当 于 sem_wait 的 非 阻塞 版 本 。 当 信和 号 
量 的 值 非 0 时 ，sem_trywait 对 信号 量 执行 减 1 操作 。 当 信和 号 量 的 值 为 0 
时 ， 它 将 返回 -1 并 设置 ermo 为 EAGAIN。 

















sem_post 函 数 以 原子 操作 的 方式 将 信号 量 的 值 加 1。 当 信和 号 量 的 值 
大 于 0 时 ， 其 他 正在 调用 sem_wait 等 待 信号 量 的 线程 将 被 唤醒 。 





上 面 这 些 函 数 成 功 时 返回 0， 失 败 则 返回 -1 并 设置 errno。 


14.5 互 斥 锁 


互 斥 锁 《〈 也 称 互 太 量 ) 可 以 用 于 保护 关键 代码 段 ， 以 确保 其 独占 式 
的 访问 ， 这 有 点 像 一 个 二 进 制 信号 量 〈 见 13.5.1 小 节 ) 。 当 进入 关键 代 
码 段 时 ， 我 们 需要 获得 互 斥 锁 并 将 其 加 锁 ， 这 等 价 于 二 进 制 信号 量 的 了 
操作 ;， 当 离开 关键 代码 段 时 ， 我 们 需要 对 互 斥 锁 解锁 ， 以 唤醒 其 他 等 符 
该 互 斥 锁 的 线程 ， 这 等 价 于 二 进 制 信号 量 的 V 操 作 。 


14.5.1 互 斥 锁 基 础 API 


POSIX 互 斥 锁 的 相关 函数 主要 有 如 下 5 个 : 





#include<=<=pthread.nh> 
int pthread mutex init (pthread mutex t*mutex,const 
pthread mutexattr t*mutexattr); 
thread mutex destroy(pthread mutex t*mutex); 
thread mutex lock(pthread mutex t*mutex); 

thread mutex trylock (pthread mutex t*mutex); 
thread mutex unlock (pthread mutex t*mutex); 
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二 光世 
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这 些 函 数 的 第 一 个 参数 mutex 指 同 要 操作 的 目标 互 斥 锁 ， 互 斥 锁 的 
类 型 是 pthread_mutex_t 结 构 体 。 


pthread_mnutex_init 函 数 用 于 初始 化 互 斥 锁 。mnutexattr 参 数 指定 互 斥 
锁 的 属性 。 如 果 将 它 设 置 为 NULL， 则 表示 使 用 默认 属性 。 我 们 将 在 下 


一 小 节 讨 论 互 斥 锁 的 属性 。 除 了 这 个 函数 外 ， 我 们 还 可 以 使 用 如 下 方式 
来 初始 化 一 个 互 斥 锁 : 











pthread mutex t mutex=PTHREAD MUTEX INITIALIZER; 
































宏 PTHREAD MUTEX_INITIALIZER 实 际 上 只 是 把 互 斥 锁 的 各 个 字 
段 都 初始 化 为 0。 


pthread_mnutex_destroy 函 数 用 于 销毁 互 斥 锁 ， 以 释放 其 占用 的 内 核 
资源 。 销 毁 一 个 已 经 加 锁 的 互 斥 锁 将 导致 不 可 预期 的 后 果 。 


pthread_mnutex_lock 函 数 以 原子 操作 的 方式 给 一 个 互 斥 锁 加 锁 。 如 
果 目 标 互 斥 锁 已 经 被 锁 上 ， 则 pthread_mnutex_lock 调 用 将 阻塞 ， 直 到 该 
互 斥 锁 的 占有 者 将 其 解锁 。 


pthread_mutex_trylock 与 pthread_mutex_lock 函 数 类 似 ， 不 过 它 始 终 
立即 返回 ， 而 不 论 被 操作 的 互 斥 锁 是 否 已 经 被 加 锁 ， 相 当 于 
pthread_mnutex_lock 的 非 阻塞 版 本 。 当 目标 互 斤 锁 未 被 加 锁 时 ， 
pthread_mnutex_trylock 对 互 斥 锁 执 行 加 锁 操 作 。 当 互 斥 锁 已 经 被 加 锁 
时 ，pthread_mutex_trylock 将 返回 错误 码 EBUSY。 需 要 注意 的 是 ， 这 里 





讨论 的 pthread_mutex_lock 和 pthread_mutex_trylock 的 行为 是 针对 普通 锁 
而 言 的 。 后 面 我 们 将 看 到 ， 对 于 其 他 类 型 的 锁 而 言 ， 这 两 个 加 锁 函 数 会 
有 不 同 的 行为 。 


pthread_mnutex_unlock 函 数 以 原子 操作 的 方式 给 一 个 互 斥 锁 解 锁 。 
如 果 此 时 有 其 他 线程 正在 等 待 这 个 互 斥 锁 ， 则 这 些 线程 中 的 某 一 个 将 获 


人 日 全， 
村 全 。 





上 面 这 些 函 数 成 功 时 返回 9， 失 败 则 返回 错误 码 。 


14.5.2” 互 斥 锁 属 性 


pthread_mnutexattr_t 结 构 体 定义 了 一 套 完 整 的 互 斥 锁 必 性。 线程 库 提 
供 了 一 系列 函数 来 操作 pthread_mutexattr_t 类 型 的 变量 ， 以 方便 我 们 获取 
和 设置 互 斥 锁 属 性 。 这 里 我 们 列 出 其 中 一 些 主 要 的 函数 : 





#include<=<=pthread.h> 
/* 初 始 化 互 斥 锁 属 性 对 象 */ 
int pthread mutexattr init (pthread mutexattr t*attr); 
/* 销 毁 互 斥 锁 属性 对 象 */ 
int pthread mutexattr destroy(pthread mutexattr t*attr); 
/x* 获 取 和 设置 互 斥 锁 的 pshared 属 性 */ 
int pthread mutexattr getpshared(const 
pthread mutexattr t*attr,int*pshared); 
int pthread mutexattr setpshared(pthread mutexattr t*attr,int 
pshared);} 
/* 获 取 和 设置 互 斥 锁 的 type 属 性 */ 
int pthread mutexattr gettype (const 
pthread mutexattr t*attr,int*type); 
int pthread mutexattr settype (pthread mutexattr t*attr,int type); 
































































































































本 书 只 讨论 互 斥 锁 的 两 种 常用 属性 : pshared 和 type。 互 斥 锁 属 性 
pshared 指 定 是 否 人 允许 跨 进程 共享 互 斥 锁 ， 其 可 选 值 有 两 个 : 


DPTHREAD _ PROCESS _ SHARED。 互 斥 锁 可 以 被 跨 进 程 共享 。 


DPTHREAD PROCESS_PRIVATE。 互 斥 锁 只 能 被 和 锁 的 初始 化 线 
程 隶 属于 同一 个 进程 的 线程 共享 。 


互 斥 锁 属 性 type 指 定 互 斥 锁 的 类 型 。Linux 文 持 如 下 4 种 类 型 的 互 斥 
锁 ; 


DPTHREAD_MUTEX_NORMAL， 普 通 锁 。 这 是 互 斥 锁 默 认 的 类 
型 。 当 一 个 线程 对 一 个 普通 锁 加 锁 以 后 ， 其 余 请 求 该 锁 的 线程 将 形成 一 
个 等 待 队列 ， 并 在 该 锁 解 锁 后 按 优先 级 获得 它 。 这 种 锁 类 型 保证 了 资源 
分 配 的 公平 性 。 但 这 种 锁 也 很 容易 引发 问题 : 一 个 线程 如 果 对 一 个 已 经 
加 锁 的 普通 锁 再 次 加 锁 ， 将 引发 死 锁 ;对 一 个 已 经 被 其 他 线程 加 锁 的 普 
通 锁 解 锁 ， 或 者 对 一 个 已 经 解锁 的 普通 锁 再 次 解锁 ， 将 导致 不 可 预期 的 
后 果 。 





DPTHREAD MUTEX_ERRORCHECK， 检 错 锁 。 一 个 线程 如 果 对 
一 个 己 经 加 锁 的 检 错 锁 再 次 加 锁 ， 则 加 锁 操作 返回 EDEADLK。 对 一 个 
己 经 被 其 他 线程 加 锁 的 检 错 锁 解 锁 ， 或 者 对 一 个 已 经 解锁 的 检 错 锁 再 次 


解锁 ， 则 解锁 操作 返回 EPERML。 

DPTHREAD MUTEX_RECURSIVE， 骸 套 锁 。 这 种 锁 允 许 一 个 线 
程 在 释放 锁 之 前 多 次 对 它 加 锁 而 不 发 生死 锁 。 不 过 其 他 线程 如 果 要 获得 
这 个 锁 ， 则 当前 锁 的 拥有 者 必须 执行 相应 次 数 的 解锁 操作 。 对 一 个 已 经 





被 其 他 线程 加 锁 的 嵌 套 锁 解 锁 ， 或 者 对 一 个 已 经 解锁 的 众 套 锁 再 次 解 
锁 ， 则 解锁 操作 返回 EPERM。 


DPTHREAD_MUTEX_DEFAULT， 默 认 锁 。 一 个 线程 如 果 对 一 个 
已 经 加 锁 的 默认 锁 再 次 加 锁 ， 或 者 对 一 个 已 经 被 其 他 线程 加 锁 的 默认 锁 
解锁 ， 或 者 对 一 个 已 经 解锁 的 默认 锁 再 次 解锁 ， 将 导致 不 可 预期 的 后 
果 。 这 种 锁 在 实现 的 时 候 可 能 被 映射 为 上 面 三 种 锁 之 一 。 


14.5.3 ”和 死 锁 举 例 


使 用 互 斥 锁 的 一 个 墨 耗 是 死 锁 。 和 死 锁 使 得 一 个 或 多 个 线程 被 挂 起 而 
无 法 继续 执行 ， 而 且 这 种 情况 还 不 容易 被 发 现 。 前 文 提 到 ， 在 一 个 线程 
中 对 一 个 已 经 加 锁 的 普通 锁 再 次 加 锁 ， 将 导致 死 锁 。 这 种 情况 可 能 出 现 
在 设计 得 不 够 仔细 的 递归 函数 中 。 男 外 ， 如 果 两 个 线程 按照 不 同 的 顺序 
来 申请 两 个 互 斥 锁 ， 也 容易 产生 有 死 锁 ， 如 代码 清单 14-1 所 示 。 


代码 清单 14-1 按 不 同 顺 序 访 问 互 斥 锁 导 致死 锁 





#include=<=pthread.h> 
#include=<=unistd.n> 
#include=stdio.hn> 

int a=0; 

int b=0; 

pthread mutex t mutex a; 
pthread mutex t mutex b; 
void*another (void*arg) 

{ 
pthread mutex lock(&mutex b); 

printf("in child thread,got mutex b,waiting for mutex a\n"); 












































Leep (5) ; 

天 人 7 

thread mutex lock(&mutex a); 
[=at+; 
thread mutex unlock (&mutex a); 
thread mutex unlock(&mutex b); 
thread exit (NULL); 

















int main() 


thread t igd; 

thread mutex init (&mutex a,NULL); 
thread mutex init (&mutex b,NULL); 
thread create(&id,NULL,another, NULL); 
thread mutex lock(&mutex a); 
























































rintf("in parent thread,got mutex a,waiting for mutex b\n"); 
Leep (5) ; 

ras 
thread mutex lock(&mutex b); 
[=pb+t+; 

thread mutex unlock(&mutex b); 
thread mutex unlock (&mutex a); 
thread join(id,NULL); 

thread mutex destroy(&mutex a); 
thread mutex destroy(&mutex b); 
eturn 0; 


人 








代码 清单 14-1 中 ， 主 线程 试图 先 占有 互 斥 锁 mutex_a， 然 后 操作 被 
该 锁 保 护 的 变量 a， 但 操作 完毕 之 后 ， 主 线程 并 没有 立即 释放 互 斥 锁 
mutex_a， 而 是 又 申请 互 斥 锁 mutex_b， 并 在 两 个 互 斥 锁 的 保护 下 ， 操 作 
变量 a 和 b， 最 后 才 一 起 释放 这 两 个 互 斥 锁 ;与 此 同时 ， 子 线程 则 按照 相 
反 的 顺序 来 申请 互 斥 锁 mutex_a 和 mnutex_b， 并 在 两 个 锁 的 保护 下 操作 变 


量 a 和 b。 我 们 用 sleep 函 数 来 模拟 连续 两 次 调用 pthread_mnutex_lock 之 间 
的 时 间 差 ， 以 确保 代码 中 的 两 个 线程 各 自 先 占有 一 个 互 斥 锁 〈 主 线程 占 


有 mutex_a， 子 线程 占有 mutex_b) ， 然 后 等 竺 另外 一 个 互 斥 锁 〈 主 线程 


等 待 mutex_b， 子 线程 等 待 mutex_a) 。 这 样 ， 两 个 线程 就 僵持 住 了 ， 谁 
都 不 能 继续 往 下 执行 ， 从 而 形成 死 锁 。 如 果 代 码 中 不 加 入 sleep 函 数 ， 则 
这 段 代码 或 许 总 能 成 功 地 运行 ， 从 而 为 程序 留 下 了 一 个 潜在 的 BUG。 





14.6 ”条件 变量 





如 傈 说 互 斥 锁 是 用 于 同步 线程 对 共 宇 数据 的 访问 的 话 ， 那 么 条 件 变 
量 则 是 用 于 在 线程 之 间 同 步 共享 数据 的 值 。 条 件 变量 提供 了 一 种 线程 间 
的 通知 机 制 ， 当 系 个 共 至 数据 达到 录 个 值 的 时 候 ， 唤 醒 等 每 这 个 共 至 数 
据 的 线程 。 





条 件 变 量 的 相关 函数 主要 有 如 下 5 个 : 





#include=<=pthread.h> 
int pthread cond init (pthread cond t*cond,const 
pthread condattr t*cond attr); 
int pthread cond destroy(pthread cond t*congd); 
pthread cond broadcast (pthread cond t*cond); 
pthread cond signal (pthread cond t*cond); 
pthread cond wait (pthread cond t*cond,pthread mutex t*mutex); 

















in 








in 











in 











这 些 函 数 的 第 一 个 参数 cond 指 向 要 操作 的 目标 条 件 变 量 ， 条 件 变 量 


的 类 型 是 pthread_cond_t 结 构 体 。 


pthread_cond_init 函 数 用 于 初始 化 条 件 变量 。cond_attr 参 数 指定 条 件 
变量 的 属性 。 如 果 将 它 设 置 为 NULL， 则 表示 使 用 默认 属性 。 条 件 变量 
的 属性 不 多 ， 而 且 和 互 斥 锁 的 属性 类 型 相似 ， 所 以 我 们 不 再 袭 述 。 除 了 
pthread_cond_init 函 数 外 ， 我 们 还 可 以 使 用 如 下 方式 来 初始 化 一 个 条 件 
恋 





地 





























pthread cond t cond=PTHREAD COND INITIALIZER; 








宏 PTHREAD _COND INITIALIZER 实 际 上 只 是 把 条 件 变 量 的 各 个 
字段 都 初始 化 为 0。 


pthread_cond_destroy 函 数 用 于 销毁 条 件 变量 ， 以 释放 其 占用 的 内 核 
资源 。 销 毁 一 个 正在 被 等 待 的 条 件 变量 将 失败 并 返回 EBUSY。 





pthread_cond_broadcast 函 数 以 广播 的 方式 唤醒 所 有 等 竺 目标 条 件 变 
量 的 线程 。pthread_cond_signal 函 数 用 于 唤醒 一 个 等 竺 目标 条 件 变量 的 
线程 。 至 于 哪个 线程 将 被 唤醒 ， 则 取决 于 线程 的 优先 级 和 调度 策略 。 有 
时 候 我 们 可 能 想 唤 醒 一 个 指定 的 线程 ， 但 pthread 没 有 对 该 需求 提供 解决 
方法 。 不 过 我 们 可 以 间接 地 实现 该 需求 : 定义 一 个 能 够 唯一 表示 目标 线 
程 的 全 局 变量 ， 在 唤醒 等 竺 条件 变量 的 线程 前 先 设置 该 变量 为 目标 线 
程 ， 然 后 采用 广播 方式 唤醒 所 有 等 待 条 件 变量 的 线程 ， 这 些 线程 被 唤醒 
后 都 检查 该 变量 以 判断 被 唤醒 的 是 否 是 自己 ， 如 果 是 就 开始 执行 后 续 代 
码 ， 如 果 不 是 则 返回 继续 等 待 。 














pthread_cond_wait 函 数 用 于 等 竺 目标 条 件 变 量 。mutex 参 数 是 用 于 保 
护 条 件 变量 的 互 斥 锁 ， 以 确保 pthread_cond_wait 操 作 的 原子 性 。 在 调用 
pthread_cond_wait 衣 ， 必 须 确保 互 斥 锁 mutex 已 经 加 锁 ， 和 否则 将 导致 不 可 
预期 的 结果 。pthread_cond_wait 函 数 执行 时 ， 首 先 把 调用 线程 放 入 条 件 
变量 的 等 待 队列 中 ， 然 后 将 互 斥 锁 mutex 解 锁 。 可 见 ， 从 








pthread_cond_wait 开 始 执行 到 其 调用 线程 被 放 入 条 件 变 量 的 等 待 队列 之 
闻 的 这 段 时 间 内 ，pthread_cond_signal 和 pthread_cond_broadcast 等 函数 不 
会 修改 条 件 变量 。 换 言 之 ，pthread_cond_wait 函 数 不 会 错过 目标 条 件 变 
量 的 任何 变化 [中 。 当 pthread_cond_wait 函 数 成 功 返 回 时 ， 互 斥 锁 mutex 

将 再 次 被 锁 上 。 





上 面 这 些 函 数 成 功 时 返回 0， 失 败 则 返回 错误 人 码 。 


14.7 ”线程 同步 机 制 包装 类 


为 了 充分 复 用 代码 ， 同 时 由 于 后 文 的 需要 ， 我 们 将 前 面 讨论 的 3 种 
线程 同步 机 制 分 别 封装 成 3 个 类 ， 实 现在 locker.h 文 件 中 ， 如 代码 清单 14- 
2 所 示 。 





代码 清单 14-2 ”locker.h 文 件 

















#ifndef LOCKER H 
#define LOCKER H 
#include=<=exception> 
#include=<=pthread.h> 
#include=semaphore.h> 
/* 封 装 信 号 量 的 类 */ 
class sem 

{ 

public: 

/* 创 建 并 初始 化 信号 量 */ 
sem() 

{ 


if(sem init(&m sem,0,0)!=0) 



































{ 
/* 构 造 函 数 没 有 返回 值 ， 可 以 通过 抛 出 异常 来 报告 错误 */ 
throw std: :exception () ， 


} 











} 

/* 销 毁 信 号 量 */ 

一 Sem () 

{ 

sem destroy(&m sem); 
} 

/* 等 竺 信号 量 */ 

bool wait() 

{ 

return sem wait (&m sem)==0; 
} 

/* 增 加 信号 量 */ 


bool post() 

{ 

return sem post(&m sem)==0; 
} 

private: 

sem 七 m sem; 


地 

/x* 封 装 互 斥 锁 的 类 */ 

class locker 

{ 

public: 

/x 创 建 并 初始 化 互 斥 锁 */ 
locker () 

{ 

ifE (pthread mutex init(&m mutex,NULL) !=0) 
{ 

throw std: :exception () ， 
} 

} 

/x* 销 毁 互 斥 锁 * / 

~locker() 

{ 


pthread mutex destroy(&m mutex); 














} 

/x* 获 取 互 斥 锁 */ 
bool lock() 

{ 


return pthread mutex lock(&m mutex)==0; 


} 

/* 释 放 互 斥 锁 */ 

bool unlock() 

{ 

return pthread mutex unlock(&m mutex)==0; 
} 

private: 

pthread mutex t m mutex; 





}; 
/* 封 装 条 件 变 量 的 类 */ 
class cond 


{ 











public: 
/* 创 建 并 初始 化 条 件 变 量 */ 
cond () 


{ 

if (pthread mutex init(&m mutex,NULL) !=0) 
{ 

throw std: :exception () ， 


} 








if (pthread cond :init(&m condq NULL) !=0) 
{ 
/* 构 造 函 数 中 一 旦 出 现 问 题 ， 就 应 该 立即 释放 已 经 成 功 分 配 了 的 资源 */ 
pthread mutex destroy(&m mutex); 

throw std: :exception(); 

} 

} 

/* 销 毁 条 件 变 量 */ 

~cond() 

{ 

pthread mutex destroy(&m mutex); 

pthread cond destroy(&m cond); 











} 

/* 等 待 条 件 变 量 */ 

bool wait() 

{ 

int ret=0; 

pthread mutex lock(&m mutex); 
ret=pthread cond wait(&m cond, &m mutex); 
thread mutex unlock (&m mutex); 

return ret==0; 

} 

/* 唤 醒 等 待 条 件 变 量 的 线程 */ 

bool signal () 

{ 

return pthread cond signal (&m cond)==0; 

} 

private: 

pthread mutex t m mutex; 

pthread cond t m cond; 

}; 
#endif 


二 一 








Ke) 














14.8 多 线程 环境 
14.8.1 可 重 入 函数 
如 果 一 个 函数 能 被 多 个 线程 同时 调用 且 不 发 生 竞 态 条 件 ， 则 我 们 称 


它 是 线程 安全 的 〈thread safe) ， 或 者 说 它 是 可 重 入 函数 。Linux 库 函数 
只 有 一 小 部 分 是 不 可 重 入 的 ， 比 如 5.1.4 小 节 讨 论 的 inet_ntoa 函 数 ， 以 及 





5.12.2 小 节 讨 论 的 getservbyname 和 getservbyport 函 数 。 关 于 Linux 上 不 可 
重 入 的 库 函 数 的 完整 列表 ， 请 读者 参考 相关 书籍 ， 这 里 不 再 袭 述 。 这 些 
库 函 数 之 所 以 不 可 重 入 ， 主 要 是 因为 其 内 部 使 用 了 静态 变量 。 不 过 
Linux 对 很 多 不 可 重 入 的 库 函 数 提 供 了 对 应 的 可 重 入 版 本 ， 这 些 可 重 入 
版 本 的 函数 名 是 在 原 函 数 名 尾部 加 上 _r。 比 如 ， 函 数 localtime 对 应 的 可 
重 入 函数 是 localtime_r。 在 多 线程 程序 中 调用 库 函 数 ， 一 定 要 使 用 其 可 
重 入 版 本 ， 和 否则 可 能 导致 预想 不 到 的 结 





14.8.2 ”线程 和 进程 





思考 这 样 一 个 问题 : 如 果 一 个 多 线程 程序 的 某 个 线程 调用 了 fork 函 
数 ， 那 么 新 创建 的 子 进 程 是 否 将 自动 创建 和 父 进程 相同 数量 的 线程 呢 ? 
答 采 是 “人 否 ”， 正 如 我 们 期 望 的 那样 。 子 进程 只 拥有 一 个 执行 线程 ， 它 是 
调用 fork 的 那个 线程 的 完整 复制 。 并 且 子 进程 将 自动 继承 父 进程 中 互 斥 


锁 《〈 条 件 变 量 与 之 类 似 ) 的 状态 。 也 就 是 说 ， 父 进程 中 已 经 被 加 锁 的 互 
斥 锁 在 子 进程 中 也 是 被 锁 住 的 。 这 就 引起 了 一 个 问题 : 子 进程 可 能 不 清 
楚 从 父 进程 继承 而 来 的 互 斥 锁 的 具体 状态 〈 是 加 锁 状 态 还 是 解锁 状 
态 ) 。 这 个 互 斥 锁 可 能 被 加 锁 了 ， 但 并 不 是 由 调用 fork 函 数 的 那个 线程 
锁 住 的， 而 是 由 其 他 线程 锁 住 的 。 如 末 是 这 种 情况 ， 则 子 进程 耕 再 次 对 
该 互 斥 锁 执 行 加 锁 操 作 就 会 导致 死 锁 ， 如 代码 清单 14-3 所 示 。 








代码 清单 14-3 ”在 多 线程 程序 中 调用 fork 函 数 





#include<=<=pthread.h> 
#include=<=unistd.n> 
#include=stdio.h> 
#include=stdlib.n> 
#include=<=wait.h> 
pthread mutex t mutex; 
/* 子 线程 运行 的 函数 。 它 首先 获得 互 斥 锁 mutex， 然 后 暂停 5 s， 再 释放 该 互 太 锁 */ 
void*another (void*arg) 
{ 
printf("in child thread,lock the mutex\n"); 
pthread mutex lock (&mutex); 
sleep (5) ， 
pthread mutex unlock (&mutex); 
} 
int main () 
{ 
pthread mutex init (&mutex,NULL); 
pthread 七 id; 
pthread create (&id,NULL,another, NULL); 
/x 父 进程 中 的 主线 程 暂停 1 s， 以 确保 在 执行 fork 操 作 之 前 ， 子 线程 已 经 开始 运行 并 获得 
了 互 斥 变量 mutexx/ 
sleep (1) ， 
int pid=fork(); 
if (pid<0) 





















































thread mutex destroy(&mutex); 


i 
主 
{ 
pthread join(id,NULL); 
也 
return 1; 

} 





else if (pid==0) 

{ 

printf("I am in the child,want to get the lock\n"); 

/x* 子 进程 从 父 进程 继承 了 互 斥 锁 mutex 的 状态 ， 该 互 斥 锁 处 于 锁 住 的 状态 ， 这 是 由 父 进程 
中 的 子 线程 执行 pthreaaqd mutex _ Lock 引起 的 ， 因 此 ， 下 面 这 名 加 锁 操 作 会 一 直 阻 塞 ， 尽 管 
从 逻辑 上 来 说 它 是 不 应 该 阻塞 的 */ 




































































pthread mutex lock(&mutex); 

printf("I can not run to here,oop...\n"); 
pthread mutex unlock (&mutex); 

exit (0); 

} 

else 

{ 

wait (NULL); 


} 

pthread join (id,NULL); 

pthread mutex destroy(&mutex); 
return 0; 


} 








不 过 ，pthread 提 供 了 一 个 专门 的 函数 pthread_atfork， 以 确保 fork 调 
用 后 父 进程 和 子 进程 都 拥有 一 个 清楚 的 锁 状 态 。 该 函数 的 定义 如 下 : 





#include<=<=pthread.h> 
int pthread atfork (void(*prepare) (void),void(*parent) 
(void),void(*child) (void)); 











该 函数 将 建立 3 个 fork 句 柄 来 帮助 我 们 清理 互 斥 锁 的 状态 。prepare 句 
柄 将 在 fork 调 用 创建 出 子 进程 之 前 被 执行 。 它 可 以 用 来 锁 住 所 有 父 进程 
中 的 互 斥 锁 。parent 句 柄 则 是 fork 调 用 创建 出 子 进程 之 后 ， 而 fork 返 回 之 
前 ， 在 父 进程 中 被 执行 。 它 的 作用 是 释放 所 有 在 prepare 句 柄 中 被 锁 住 的 
互 斥 锁 。child 句 柄 是 fork 返 回 之 前 ， 在 子 进 程 中 被 执行 。 和 parent 句 柄 一 
样 ，child 句 柄 也 是 用 于 释放 所 ee 中 被 锁 住 的 互 斥 锁 。 该 函 
数 成 功 时 返回 0， 失 败 则 返回 错误 码 。 





因此 ， 如 果 要 让 代码 清单 14-3 正 常 工 作 ， 就 应 该 在 其 中 的 fork 调 用 
前 加 入 代码 清单 14-4 所 示 的 代码 。 





void prepare () 


{ 





代码 清单 14-4 ”使 用 pthread_atfork 函 数 





pthread mutex lock (&mutex); 
} 
void infork() 


{ 





thread mutex unlock (&mutex); 

















pi 
} 
pthread atfork (prepare,infork,infork); 





14.8.3 ”线程 和 信号 


每 个 线程 都 可 以 独立 地 设置 信号 掩 码 。 我 们 在 10.3.2 小 节 讨 论 过 设 
置 进 程 信号 手 码 的 函数 sigprocmask， 但 在 多 线程 环境 下 我 们 应 该 使 用 如 
下 所 示 的 pthread 版 本 的 sigprocmask 函 数 来 设置 线程 信号 掩 码 : 








#include=<=pthread.h> 

#include=signal.h> 

int pthread sigmask (int how,const 
sigset t*newmask,sigset t*oldmask); 











该 函数 的 参数 的 售 义 与 sigprocmask 的 参数 完全 相同 ， 因 此 不 再 玖 
述 。pthread_sigmask 成 功 时 返回 9， 失败 则 返回 错误 人 码 。 





由 于 进程 中 的 所 有 线程 共享 该 进程 的 信号 ， 所 以 线程 库 将 根据 线程 
掩 码 决定 把 信号 及 送 给 哪个 具体 的 线程 。 因 此 ， 如 末 我 们 在 每 个 子 线程 
中 都 单独 设置 信号 掩 码 ， 束 很 容易 导致 逻辑 错误 。 此 外 ， 所 有 线程 共 吾 
言 号 处 理 函 数 。 也 就 是 说 ， 当 我 们 在 一 个 线程 中 设置 了 某 个 信号 的 信和 号 
处 理 函 数 后 ， 它 将 窗 冀 其 他 线程 为 同一 个 信号 设置 的 信号 处 理 函 数 。 这 
两 点 都 说 明 ， 我 们 应 该 定义 一 个 专门 的 线程 来 处 理 所 有 的 信和 号。 这 可 以 
通过 如 下 两 个 步骤 来 实现 : 














1) 在 主线 程 创建 出 其 他 子 线程 之 前 束 调 用 pthread_sigmask 来 设置 好 
言 写 掩 码 ， 所 有 新 创建 的 子 线程 都 将 自动 继承 这 个 信号 掩 码 。 这 样 做 之 
后 ， 实 际 上 所 有 线程 都 不 会 啊 应 被 屏蔽 的 信号 了 。 


2) 在 菜 个 线程 中 调用 如 下 函数 来 等 待 信号 并 处 理 之 : 





#include=signal.h> 
int sigwait (const sigset t*set,int*sig); 











set 参 数 指定 需要 等 竺 的 信号 的 集合 。 我 们 可 以 简单 地 将 其 指定 为 在 
第 1 步 中 创建 的 信号 掩 码 ， 表 示 在 该 线程 中 等 等 所 有 被 屏蔽 的 信号 。 参 
数 sig 指 癌 的 整数 用 于 存储 该 函数 返回 的 信号 值 。sigwait 成 功 时 返回 0， 
失败 则 返回 错误 码 。 一 旦 sigwait 正 确 返 回 ， 我 们 束 可 以 对 接收 到 的 信和 号 
做 处 理 了 。 很 显然 ， 如 果 我 们 使 用 了 sigwait， 束 不 应 该 再 为 信号 设置 信 
写 处 理 函 数 了 。 这 是 因为 当 程 序 接收 到 信号 时 ， 二 者 中 只 能 有 一 个 起 作 
用 。 











代码 清单 14-5 取 自 pthread_sigmask 函 数 的 man 手 册 。 它 展示 了 如 何 
通过 上 述 两 个 步骤 实现 在 一 个 线程 中 统一 处 理 所 有 信和 号。 


代码 清单 14-5 ”用 一 个 线程 处 理 所 有 信和 号 





#include<=<=pthread.h> 

#include=stdio.h> 

#include=stdlib.n> 

#include=<=unistd.n> 

#include=signal.hn> 

#include<errno.h> 

#define handle error enl(en,msg)\ 
do{errno=en;perror (msg) ;exit (EXIT FAILURE); }while(0) 
static void*sig thread (void*arg) 

{ 

sigset t*set=(sigset t*)arg; 

int “sy Sid? 

EOTA(E 人 ee) 

{ 

/* 第 二 个 步骤 ， 调 用 sigwait 等 待 信号 */ 
s=sigwait (set, &sig); 

if(s!=0) 

handle error en(s,"sigwait"); 
printf("Signal handling thread got signal%sd\n",sig); 
} 

} 

int main(int argc,char*argv|[]) 

{ 

pthread t thread; 

sigset 七 set; 

下 和 起 < 海 字 

/* 第 一 个 步 台 ， 在 主线 程 中 设置 信号 掩 码 */ 
sigemptyset (&set); 

sigaddset (&set,SIGQUIT); 

sigaddset (&set,SIGUSR1); 

s=pthread sigmask (SIG BLOCK, &set,NULL); 
if(s!=0) 

handle error enl(s,"pthread sigmask"); 
s=pthread create(&thread,NULL, &sig thread, (void*) &set); 
if(s!=0) 

handle error enl(s,"pthread create"™); 
pause (); 














































































































最 后 ，pthread 还 提供 了 下 面 的 方法 ， 使 得 我 们 可 以 明确 地 将 一 个 信 
号 发 送 给 指定 的 线程 : 





#include=signal.h> 
int pthread kill (pthread 七 thread,int sig); 








其 中 ，thread 参 数 指定 目标 线程 ，sig 参 数 指定 待 发 送 的 信号 。 如 果 
sig 为 0， 则 pthread_kill 不 发 送信 号 ， 但 它 任 然 会 执行 错误 检查 。 我 们 可 
以 利用 这 种 方式 来 检测 目标 线程 是 否 存 在 。pthread_kill 成 功 时 返回 0， 
失败 则 返回 错误 码 。 








第 15 章 ”进程 池 和 线程 池 


在 前 面 的 章节 中 ， 我 们 是 通过 动态 创建 子 进程 (或 子 线程 来 实现 
并 发 服务 露 的 。 这 样 做 有 如 下 缺点 : 





口 动态 创建 进程 〈 或 线程 ) 是 比较 耗费 时 间 的 ， 这 将 导致 较 慢 的 客 
户 啊 应 。 





口 动态 创建 的 子 进 程 〈 或 子 线程 ) 通常 只 用 来 为 一 个 客户 服务 〈 除 
非 我 们 做 特殊 的 处 理 ) ， 这 将 导致 系统 上 产生 大 量 的 细微 进程 (或 线 
程 》。 进 程 (或 线程 》 间 的 切换 将 消耗 大 量 CPU 时 间 。 


口 动态 创建 的 子 进程 是 当前 进程 的 完整 映像 。 当 前 进程 必须 谨慎 地 
管理 其 分 配 的 文件 描述 符 和 堆 内 存 等 系统 资源 ， 人 否则 子 进 程 可 能 复制 这 
些 资源 ， 从 而 使 系统 的 可 用 资源 急剧 下 降 ， 进 而 影响 服务 器 的 性 能 。 





第 8 章 介 绍 过 的 进程 池 和 线程 池 可 以 解决 上 述 问 题 。 本 章 将 分 析 这 
两 种 < 池 ” 的 细节 ， 给 出 它们 的 通用 实现 ， 并 分 别 用 进程 池 和 线程 池 来 实 
现 简单 的 并 发 服务 器 。 

15.1 进程 地 和 线程 池 概述 


进程 池 和 线程 池 相似 ， 所 以 这 里 我 们 只 以 进程 池 为 例 进 行 介绍 。 如 





没有 特殊 声明 ， 下 面 对 进 程 池 的 讨论 完全 适用 于 线程 池 。 


进程 池 是 由 服务 器 预先 创建 的 一 组 子 进 程 ， 这 些 子 进程 的 数目 在 3 
一 10 个 之 间 (当然 ， 这 只 是 典型 情况 ) 。 比 如 13.5.5 小 节 所 描述 的 ， 
httpd 守 护 进 程 就 是 使 用 包含 7 个 子 进程 的 进程 池 来 实现 并 发 的 。 线 程 池 
中 的 线程 数量 应 该 和 CPU 数量 差不多 。 








进程 池 中 的 所 有 子 进程 都 运行 着 相同 的 代码 ， 并 具有 相同 的 属性 ， 
比如 优先 级 、PGID 等 。 因 为 进程 池 在 服务 器 局 动 之 初 束 创建 好 了 ， 所 
以 每 个 子 进程 都 相对 “干净 ”， 即 它们 没有 打开 不 必要 的 文件 摘 述 符 〈 从 
父 进程 继承 而 来 ) ， 也 不 会 错误 地 使 用 大 块 的 堆 内 存 〈 从 父 进 程 复制 得 
到 ) 。 


当 有 新 的 任务 到 来 时 ， 主 进程 将 通过 菏 种 方式 选择 进程 池 中 的 菏 一 
个 子 进程 来 为 之 服务 。 相 比 于 动态 创建 子 进程 ， 选 择 一 个 已 经 存在 的 子 
进程 的 代价 显然 要 小 得 多 。 人 至 于 主 进程 选择 哪个 子 进程 来 为 新 任务 服 
务 ， 则 有 两 种 方式 : 





口 主 进程 使 用 某 种 算法 来 主动 选择 子 进 程 。 最 简单 、 最 稼 用 的 算法 
是 随机 算法 和 Round Robin 〈 轮 流 选 取 ) 算法 ， 但 更 优秀 、 更 智能 的 算 
法 将 使 任务 在 各 个 工作 进程 中 更 均匀 地 分 配 ， 从 而 减轻 服务 器 的 整体 压 
二 





口 主 进程 和 所 有 子 进程 通过 一 个 共享 的 工作 队列 来 同步 ， 子 进程 都 


睡眠 在 该 工作 队列 上 。 当 有 新 的 任务 到 来 时 ， 主 进程 将 任务 添加 到 工作 
队列 中 。 这 将 唤醒 正在 等 竺 任务 的 子 进 程 ， 不 过 只 有 一 个 子 进 程 将 获得 
新 任务 的 “接管 权 ?”， 它 可 以 从 工作 队列 中 取出 任务 并 执行 之 ， 而 其 他 子 
进程 将 继续 睡眠 在 工作 队列 上 。 








当选 择 好 子 进 程 后 ， 主 进程 还 需要 使 用 茶 种 通知 机 制 来 告诉 目标 子 
进程 有 新 任务 需要 处 理 ， 并 传递 必要 的 数据 。 最 简单 的 方法 是 ， 在 父 进 
程 和 子 进程 之 间 预 完 建立 好 一 条 省 道 ， 然 后 通过 该 管道 来 实现 所 有 的 进 
程 间 通信 (当然 ， 要 预先 定义 好 一 套 协 议 来 规范 管道 的 使 用 〉。 在 父 线 
程 和 子 线 程 之 间 传 弟 数 据 就 要 简单 得 多 ， 因 为 我 们 可 以 把 这 些 数 据 定义 
为 全 局 的 ， 那 么 它们 本 喘 就 是 被 所 有 线程 共 诗 的 。 











综合 上 面 的 论述 ， 我 们 将 进程 池 的 一 般 模 型 描绘 为 图 15-1 所 示 的 形 
Ts 


通知 机 制 进程 池 


选择 算法 
随机 算法 /Round 





图 15-1 进程 池 模 型 


15.2 处理 多 客户 


在 使 用 进程 池 处理 多 客户 任务 时 ， 首 先 要 考虑 的 一 个 问题 是 : 监听 
socket 和 连接 socket 是 否 都 由 主 进程 来 统一 管理 。 回 忆 第 8 章 中 我 们 介绍 
过 的 几 种 并 发 模式 ， 其 中 半 同 步 / 半 反 应 堆 模 式 是 由 主 进 程 统一 管理 这 
两 种 socket 的 ; 而 图 8-11 所 示 的 高 效 的 半 同 步 / 半 异 步 模式 ， 以 及 领导 者 / 
退 随 者 模式 ， 则 是 由 主 进 程 管理 所 有 监听 socket， 而 各 个 子 进程 分 别管 
理 属 于 目 己 的 连接 socket 的 。 对 于 前 一 种 情况 ， 主 进程 接受 新 的 连接 以 
得 到 连接 socket， 然 后 它 需 要 将 该 socket 传 递 给 子 进程 (对 于 线程 池 而 

父 线程 将 socket 传 递 给 子 线程 是 很 简单 的 ， 因 为 它们 可 以 很 容易 地 
共有 至 该 socket。 但 对 于 进程 池 而 言 ， 我 们 必须 使 用 13.9 节 介绍 的 方法 来 
传递 该 socket) 。 后 一 种 情况 的 灵活 性 更 大 一 些 ， 因 为 子 进程 可 以 目 己 
调用 accept 来 接受 新 的 连接 ， 这 样 父 进程 束 无 须 回 子 进程 传递 Socket， 而 
只 需要 简单 地 通知 一 声 ;:“ 我 检测 到 新 的 连接 ， 你 来 接受 它 。” 











吾 ， 











在 4.6.1 小 节 中 我 们 曾 讨论 过 常 连接 ， 即 一 个 客户 的 多 次 请 求 可 以 复 
用 一 个 TCP 连 接 。 那 么 ， 在 设计 进程 池 时 还 需要 考虑 : 一 个 客户 连接 上 
的 所 有 任务 是 否 始终 由 一 个 子 进程 来 处 理 。 如 果 说 客户 任务 是 无 状态 
的 ， 那 么 我 们 可 以 考虑 使 用 不 同 的 子 进程 来 为 该 客户 的 不 同 请 求 服 务 ， 
如 图 15-2 所 示 。 








客户 请 求 1， 客 户 请 求 2 


回应 1， 回 应 2 





图 15-2 多 个 子 进 程 处 理 同 一 个 客户 连接 上 的 不 同 任务 


但 如 果 客 户 任务 是 存在 上 下 文 关 系 的 ， 则 最 好 一 直 用 同一 个 子 进程 
来 为 之 服务 ， 否 则 实现 起 来 将 比较 麻烦 ， 因 为 我 们 不 得 不 在 各 子 进程 之 
间 传 递 上 下 文 数据 。 在 9.3.4 小 节 中 ， 我 们 讨论 了 epoll 的 
EPOLLONESHOT 事 件 ， 这 一 事件 能 够 确保 一 个 客户 连接 在 整个 生命 周 
期 中 仅 被 一 个 线程 处 理 。 





15.3” 半 同步 / 半 寞 步 进程 池 实 现 





综合 前 面 的 讨论 ， 本 市 我 们 实现 一 个 基于 图 8-11 所 示 的 半 同 步 / 半 并 
步 并 发 模式 的 进程 池 ， 如 代码 清单 15-1 所 示 。 为 了 避免 在 父 、 子 进程 之 
间 传 递 文件 描述 符 ， 我 们 将 接受 新 连接 的 操作 放 到 子 进 程 中 。 很 显然 ， 
对 于 这 种 模式 而 言 ， 一 个 客户 连接 上 的 所 有 任务 始终 是 由 一 个 子 进程 来 
处 理 的 。 





代码 清单 15-1 半 同 步 / 半 异步 进程 池 








//filename:processpool.h 
#ifndef PROCESSPOOL H 
#define PROCESSPOOL 卫 
#include=<=sys/types.h> 
#include=sys/socket.nh> 
#include<netinet/in.h> 
#include=<=arpa/inet.h> 
#include=<=assert.n> 
#include=stdio.h> 
#include=<=unistd.n> 
#include=<=errno.h> 
#include=string.h> 
#include<=<fcntl.h> 
#include=stdlib.n> 
#include=sys/epoll.nh> 
#include=signal.h> 
#include<sys/wait.h> 
#include=<=sys/stat.h> 
/* 描 述 一 个 子 进程 的 类 ，m _pid 是 目标 子 进程 的 PID，m pipefd 是 父 进程 和 子 进程 通信 
用 的 管道 */ 
class process 
{ 
public: 
process():m pid(-1){} 
puUbliLes 













































































pid t m pid; 



























































































































































int m pipefd[2]; 

}; 

/* 进 程 池 类 ， 将 它 定 义 为 模板 类 是 为 了 代码 复 用 。 其 模板 参数 是 处 理 逻 辑 任 务 的 类 */ 

i he 下 党 

class processpool 

{ 

private: 

/* 将 构造 函数 定义 为 私有 的 ， 因 此 我 们 只 能 通过 后 面 的 create 静 态 函 数 来 创建 
processpool 实 例 */ 

processpool (int listenfd,int process number=8); 

PubBlLie:: 

/* 单 体 模式 ， 以 保证 程序 最 多 创建 一 个 processpool 实 例 ， 这 是 程序 正确 处 理 信号 的 必 
要 条 件 */ 

static processpool<T~>*create (int listenfd,int process number=8) 

{ 

if(!Im instance) 





{ 

m instance=new processpool<T~> (listen 
} 

return m instance; 

} 

~processpool () 

{ 

delete[]m sub process; 

} 

/* 启 动 进程 池 */ 

void run(); 

private: 
void setup sig pipe(); 

void run parent (); 

void run child(); 

private: 

/* 进 程 池 允许 的 最 大 子 进 程 数 量 */ 
static const int MAX PROCESS N 
/* 每 个 子 进程 最 多 能 处 理 的 客户 数量 */ 
static const int USER PER PROC 
/*epol1 最 多 能 处 理 的 事件 数 */ 
static const int MAX EVENT NUM 
/* 进 程 池 中 的 进程 总 数 */ 

int m process number; 

/* 子 进程 在 池 中 的 序号 ， 从 0 开始 */ 
int m idx; 

/* 每 个 进程 都 有 
int m epollfdqd; 
/* 监 听 socket*/ 
int m listenfd; 


/* 子 进程 通过 m stop 来 决定 


























UMI 




































































PB 










































































个 epoll 内 核 事件 表 ， 用 m_epol1lf 





fd,process number); 


ER=16; 
ESS=65536; 


ER=10000; 


gd 标识 */ 





int m stop; 

/* 保 存 所 有 子 进程 的 描述 信息 */ 

process*m sub process; 

/* 进 程 池 静 态 实例 */ 

static processpool<T~>*m instance; 

}; 

template<=typename 1T> 
processpool<T~>*processpool<T~>::m instance=NULL; 
/* 用 于 处 理 信号 的 管道 ， 以 实现 统一 事件 源 。 后 面 称 之 为 信号 管道 */ 
static int sig pipefd[2]; 

static int setnonblocking(int fqd) 

















































































































int old option=fcntl (fd,F GETFL); 

int new option=old option|O NONBLOCK; 
fcntl (fd,F SETFL,new option); 

return old option; 


















































static void addfd(int epollfd,int fd) 








epoll event event; 
event .data.fd=fd; 
vent .events=EPOLLIN|EPOLLET; 

epoll ctl (epollfd,EPOLL CTL ADD, fd, &event); 
setnonblocking (fd); 

} 

/* 从 epollfgd 标 识 的 epol1 内 核 事 件 表 中 删除 £9 上 的 所 有 注册 事件 */ 
static void removefd(int epollfd,int fd) 

{ 
epoll ctl (epollfd,EPOLL CTL DEL,fd,0); 
close (fdq) ， 
} 

static void sig handler (int sig) 

{ 

int save errno=errno; 

int msg=sig; 

send(sig pipefd[1], (char*) &msg,1,0); 
rrno=save errno; 



































































































































} 
static void addsig(int sig,void (handler) (int),bool restart=true) 
{ 
S 








truct sigaction sa; 
memset (sa,'\0',sizeo 
sa.sa handler=handler; 
if (restart) 








(sa) ); 








sa.sa flags|=SA RESTART; 











sigfillset (&sa.sa mask); 








assert (sigaction (sig, &sa,NULL) !=-1); 


} 


































































































/* 进 程 池 构造 函数 。 参 数 1istenfd 是 监 昕 socket， 它 必须 在 创建 进程 池 之 前 被 创建 ， 
则 子 进程 无 法 直接 引用 它 。 参 数 process_number 指 定 进程 池 中 子 进 程 的 数量 */ 
template<=<=typename T~> 
processpool<T~>::processpool (int listenfd,int process number) 
:m listenfd(listenfd),m process number (process number),m idx(- 
m stoplfalse) 
{ 
assert ((process number>0)&& (process number< 
=MAX PROCESS _ NUMBER) ) ， 
m sub Process=new processlprocess number]; 
assert (Im sub process); 
/* 创 建 process_number 个 子 进程 ， 并 建立 它们 和 父 进 程 之 间 的 管道 */ 
for(int i=0;i<process number;++i) 
{ 
int 
ret=socketpair (PF UNIX,SOCK STREAM,0,m sub Process [il.m pipefd); 


assert 


m sub . 





assert 


{ 





contin 


} 


else 


{ 





break; 
} 
} 
} 


(ret==0 
process 


(m sub 
if(m sub process[il].m pid>>0) 


ue;’; 


于 





/* 统 一 事件 源 */ 
template<=typename T> 


void processpool<=T7T: 


{ 








); 














[i] .m pid=fork(); 


process[i] 


-mMm 


pid>=0);} 





close(lm sub process[i].m pipefd[1]); 





Closem sub process[i].m pipefd[0]); 
m idx= 


/* 创 建 epoll 事 件 监听 表 和 信号 管道 */ 
); 


m epol 
assert 


int ret=socketpair (PF UNI 
(ret!=-1 
setnonblocking (sig pipef 





assert 





addfd( 








(m epol 


lfd=epoll_ 


Create (5 
Lfadl=—1)» 过 











7 








[X, SOCK STRI 


和 








fqd, sig pipei 


fd 








m Er 




















/* 设 置信 号 处 理 函 数 */ 





addsig (SIGCHI 
addsig (SIGTERM, sig handg] 

















[11]); 
dL[01); 


'D, sig handler); 
ler); 





r 


六 


:setup sig Pipe() 





EAM, 0, sig pipe 

















fdq) ， 








工 ) ， 











addsig(SIGINT,sig handler); 

addsig (SIGPIPE,SIG IGN); 

} 

/* 父 进程 中 m idx 值 为 -1， 子 进程 中 m idx 值 大 于 等 于 0， 我 们 据 此 判断 接 下 来 要 运行 的 
是 父 进 程 代码 还 是 子 进程 代码 */ 

template<=typename T> 

void processpool<=T>::run() 

{ 
if (m idx!=-1) 

{ 

run child(); 

return; 

} 

run parent (); 

} 

template<=typename T> 

void processpool<T~>::run child() 

{ 

setup sig pipe(); 

/* 每 个 子 进程 都 通过 其 在 进程 池 中 的 序号 值 mn_idx 找 到 与 父 进 程 通信 的 管道 */ 

int pipefd=m sub process[m idx] .m pipefdl[1]; 

/* 子 进程 需要 监听 管道 文件 描述 符 pipefdq， 因 为 父 进程 将 通过 它 来 通知 子 进程 accept 新 
连接 */ 

addfd (m epollfd,pipefd); 

epoll event events [MAX EVENT NUMBER]; 

T*users=new TI[IUSER PER PROCESS]; 

assert (users); 

int number=0; 

int ret=-1，} 

while(!m stop) 

{ 

number=epoll wait(m epollfd,events,MAX EVENT NUMBER,-1); 
if( (number=<0)&& (errno!=EINTR)) 
{ 
printf ("epoll failure\n"); 
break; 
} 
for(int i=0;i<~number;i++) 
{ 
int sockfd=events[i].data.fd; 
if((sockfd==pipefd) && (events[i] .events&EPOLLIN)) 

{ 

int client=0; 

/* 从 父 、 子 进程 之 间 的 管道 读 取 数据 ， 并 将 结果 保存 在 变量 cl1ient 中 。 如 果 读 取 成 功 ， 
则 表示 有 新 客户 连接 到 来 */ 

ret=recv (sockfd, (char*) &client,sizeof (client),0); 
if(((ret=<0)&& (errno!=EAGAIN)) ||ret==0) 
{ 














































































































































































































































































































continue; 

} 

else 

{ 

struct sockaddr in cl 
socklen 








ient address; 





t client addrlength=sizeof 


(client address); 











int connfd=accept\( 
client addrlength); 
if (connfd=0) 
{ 
print 
Con 
} 
add 


m listen 











f("errno is:%Sd\n",errno); 


tinue; 








fd) 





fd,conn 





fd(m epoll 


/* 模 板 类 Tf 必须 实现 init 方 法 ， 以 初始 化 一 个 客户 连接 。 我 们 直接 使 用 conn 














辑 处 理 对 象 〈T 类 型 的 对 象 )， 以 提高 程序 效率 */ 
users[connfd] .init (m epollfd,conn 
} 
} 
/x* 下面 处 到 
else if 
{ 
2 
char signals[1024]; 
ret=recv (sig pipefd[0], 



































E 子 进程 接收 到 的 信号 */ 
((sockfd==sig pipefdlIl 



































Fd, (struct sockaddr*) &client address,& 


fd 来 索引 逻 














0]) && (events[il] 


signals,sizeof 


fd,client address); 








EPOLL 





.events& 








(signals),0); 








if (ret<==0) 

{ 

continue; 

} 

else 

{ 

for(int i=0; 
{ 
Switch(signals[ 
{ 

case SI 
{ 

pid t pig; 

int stat; 

while( (pid=waitpid (- 
{ 

continue; 

} 
break; 
} 

Case 5 
Case 5 


{ 








i<=ret;++i) 


i]) 





GCHLD: 








GT 
G 


ERM: 
NT: 




















1, &stat,WNOHANG) ) >0) 


m stop=true; 





















































break; 

} 

defauilt: 

{ 

break; 

} 

} 

} 

} 

} 

/* 如 果 是 其 他 可 读数 据 ， 那 么 必然 是 客户 请 求 到 来 。 调 用 逻辑 处 理 对 象 的 process 方 法 处 
理 之 */ 

lse if(events[i] .events&EPOLLIN) 

















users[lsockfd] .process ();，; 

} 

else 

{ 

continue; 

} 

} 

} 

delete[]users; 

users=NULL; 

close (pipefd); 

//close tm 1istenfd);/* 我 们 将 这 人 句 话 注释 挤 ， 以 提醒 读者 : 应 该 由 m _1istenfd 的 
创建 者 来 关闭 这 个 文件 描述 符 《〈 见 后 文 ) ， 即 所 谓 的 \ 对 象 “比如 一 个 文件 描述 符 ， 又 或 者 一 段 
堆 内 存 ) 由 哪个 函数 创建 ， 就 应 该 由 哪个 函数 销毁 “*/ 

Close Im epollfqd); 

} 

template<=typename 1T> 

void processpool<T~>::run Parent () 

{ 

setup sig pipe(); 

/* 父 进程 监听 m listenfd*/ 

addfd(m epollfd,m listenfd); 

epoll event events [MAX EVENT NUMBER]; 








































































































int sub process counter=0; 
int new conn=1; 

int number=0; 

int ret=-1» 





while(!m stop) 

{ 

number=epoll wait(m epollfd,events,MAX EVENT NUMBER,-1); 
if( (number<=<0)&& (errno!=EINTR)) 

{ 


printf("epoll failure\n"); 
























































break; 


} 








{ 





for(int i=0;i<number;i++) 











int sockfd=events[i].data.fd; 








{ 
/x* 如 果 有 新 连接 到 来 ， 就 采用 Round Robin 方 式 将 其 分 配给 一 个 子 进程 处 理 */ 





if (sockfd==m listenfd) 























int i=sub process counter; 


do 
{ 





{ 


break; 


} 


i= (i+1)%m process 


} 


if(m sub processl[i 


] .m pid!=-1) 


number; 


while(i!=sub process counter); 





{ 
m stop=true; 
break; 


} 


if(m sub processl[i 


] .m pid==-1) 

















Sub process counter=(i+1)®%m process number; 
send(m sub process[i].m pipefd[0], 


(char*) &new conn,sizeo 














f (new conn),o0); 


printf("send request to child%sd\n",i); 


} 


























/* 下 面 处 理 父 进程 接收 到 的 信号 */ 


























else if((sockfd==sig pipe 


{ 


Tnt Slo 


char signals[1024]; 
ret=recv (sig pipef 











if (ret<==0) 

{ 

continue; 

} 

else 

{ 

for(int i=0;i<ret 
{ 
switch(signals[i]) 
{ 

case SIGCHLD: 

{ 

pid:.t :Pld; 

int stat; 














六 





d[0],signals,sizeo: 


Fd[0])&& (events[i] .events& 


(signals),0); 





Te 

















EPOLL 








while( (pid=waitpid(-1,&stat,WNOHANG))>0) 
{ 


for(int i=0;i<~m process number;++i) 

















{ 
/* 如 果 进 程 池 中 第 i 个 子 进程 退出 了 ， 则 主 进程 关闭 相应 的 通信 管道 











m_ pid 为 -1， 以 标记 该 子 进程 已 经 退出 */ 


7 





if(m sub process[il].m pid==pid) 

{ 

Derint 人 tf ("Vehildsd JOLnNi";yT)s 

Close m sub process[i].m pipefd[0]); 
m Sub process[i].m pid=-1; 
































-top=trey 
for(int i=0;i<~m process number;++i) 


} 
} 
} 
/* 如 果 所 有 子 进程 都 已 经 退出 了 ， 则 父 进 程 也 退出 */ 
m 











if (m sub process[i].m pid!=-1) 





{ 
工 
{ 
m stop=false; 
} 
} 


break; 
} 

Case SIGTERM: 
Case SIGINT: 
{ 



































， 并 设置 相应 的 








/* 如 果 父 进程 接收 到 终止 信号 ， 那 么 就 杀 死 所 有 子 进 程 ， 并 等 待 它们 全 部 结束 。 当 然 ， 通 
知 子 进程 结束 更 好 的 方法 是 向 父 、 子 进程 之 间 的 通信 管道 发 送 特殊 数据 ， 读 者 不 妨 自 己 实现 之 



































Printft("kil1 all the clild now\n"); 
for(int i=0;i<~m process number;++i) 
{ 

int pid=m sub process[il]l.m pidg; 
Lf"(BLA.s 1) 

{ 

kill (pid,SIGTERM); 









































} 

} 
else 
{ 
continue; 

} 

} 

} 

//close (m listenfd);/* 由 创建 者 关闭 这 个 文件 描述 符 ( 见 后 文 》*/ 
close(m epollfqd); 

} 
#endif 
































15.4 用 进程 池 实 现 的 简单 CGI 服务 器 


回忆 6.2 节 ， 我 们 兽 实现 过 一 个 非常 简单 的 CGI 服务 器 。 下 面 我 们 将 
利用 前 面 介绍 的 进程 池 来 重新 实现 一 个 并 发 的 CGI 服务 器 ， 如 代码 清单 


15-2 所 示 。 


代码 清单 15-2 ”用 进程 池 实 现 的 并 发 CGI 服务 器 





#include=sys/types.h> 

#include=sys/socket.h> 

#include<netinet/in.h> 

#include=arpa/inet.h> 

#include=<assert.n> 

#include=stdio.h> 

#include=<=unistd.n> 

#include=<=errno.h> 

#include=string.h> 

#include<=<fcntl.h> 

#include=stdlib.n> 

#include=sys/epoll.n> 

#include=signal.h> 

#include<sys/wait.h> 

#include=<=sys/stat.h> 

#include"processpool.h"/* 引 用 上 一 节 介 绍 的 进程 池 */ 

/* 用 于 处 理 客户 cGI 请 求 的 类 ， 它 可 以 作为 processpool 类 的 模板 参数 */ 

class cgi conn 

{ 

下 这 二 二 工区 

cgi conn(){} 

~cgi conn(){} 

/* 初 始 化 客户 连接 ， 清 空 读 缓冲 区 */ 

void init(int epollfd,int sockfd,const sockaddr in&client addr) 
{ 

m epollfd=epollfdqd; 

m sockfd=sockfd; 
m address=client addr; 

memset (m buf,'\0',BUFFER SIZE); 













































































m read idx=0; 
} 
void process () 
{ 
int We 
int ret= 
放任 环 访 取 和 分 析 容 户 数据 */ 
while (true) 
{ 


idx=m read idx; 

















ret=recv(m sockfd,m buf+idx,BUFFER SIZE-1-idx,0); 


/* 如 果 读 操作 发 生 错 误 , 则 关闭 客户 连接 。 但 如 果 是 暂时 无 数据 可 读 ， 则 退 



































if (ret=0) 








f (errno!=EAGAIN) 























emovefd(m epollfd,m sockfd); 


一 一 


break; 

} 

/* 如 果 对 方 关 闭 连接 ， 则 服务 器 也 关闭 连接 */ 
else if (ret==0) 

{ 
removefd(m epollfd,m sockfqd); 

break; 

} 

else 

{ 

m read idx+=ret; 

printf(" user content is:%Ss\n",m buf); 
/* 如 果 遇 到 字符 “\r\n”， 则 开始 处 理 客户 请 求 */ 


for(;idx<m read idx;++idx) 



























































{ 

if( (idx>=1) && (m buf[idx-1]=="'\r"') && (m buf 
{ 

break; 

} 

} 

/* 如 果 没 有 遇 到 字符 "\r\n”， 则 需要 读 取 更 多 客户 数据 */ 
if (idx==m read idx) 

{ 

continue; 


Se 


m buf[idx-1]="'\0"'; 

char*file name=m buf; 
/x* 判 断 客户 要 运行 的 CGI 程序 是 否 存 在 */ 
if(access (file name,F OK)==-1) 


{ 





























[idx]=="'\n' 


出 循环 */ 











removefd(m epollfd,m sockfqd); 
break; 

} 

/* 创 建 子 进程 来 执行 CGI 程 序 */ 
ret=fork(); 

if (ret==-1) 

{ 

removefd(m epollfd,m sockfqd); 
break; 

} 

else if(ret>0) 






































{ 

/* 父 进程 只 需 关 闭 连 接 */ 
removefd(m epollfd,m sockfqd); 
break; 

} 


else 











{ 

/x* 子 进程 将 标准 输出 定向 到 m_sockfd， 并 执行 CGI 程序 */ 

close (STDOUT FILENO); 

dup (m sockfqd); 

execl (m buf,m buf,0); 

exit (0); 

} 

} 

} 

} 

private: 

/* 读 缓冲 区 的 大 小 */ 

static const int BUFFER SIZE=1024; 

static int m epollfd; 

int m sockfd; 

sockaddr in m address; 

char m buf [BUFFER SIZE]; 

/* 标 记 读 缓冲 中 已经 读 入 的 客户 数据 的 最 后 一 个 字 节 的 下 一 个 位 置 */ 
int m read idx; 

}; 
int cgi conn::m epollfd=-1; 

/* 主 函数 */ 

int main(int argc,char*argv|[]) 

{ 

if (argc==2) 

{ 

printf("usage:%s ip address port number\n",basename (argv{[0])); 
return 1; 

} 
const char*ip=argv[1]; 
int port=atoi (argv[21); 























































































































int listenfd=socket (PF _ IN 




















assert (listenfd>=0)， 





int ret=0; 








ET, SOCK STRI 


struct sockaddr in address; 


bzero (&address,sizeo 











address.sin: 


inet pton (AF_ 
address.sin porti 








f (adqdqress) ) 


family=AF INET; 


























EAM, 0); 


NET, ip, &address.sin addr); 
t=htons (port); 





ret=bind (listenfd, (struct sockaddr*) &address,sizeof (address)); 























assert (ret!=-1);) 
ret=listen (listenfd,5); 
assert (ret!=-1);，) 





processpool<cgi conn>*pool=processpool<cgi conn 


二 ::create (liste 
if (pool) 

{ 
pool->run (); 
delete pool; 
} 








if) 各 





close (1istenmi 











就 由 它 亲 自 关闭 之 */ 
return 0; 


} 








fd) ; /* 正 如 前 文 提 到 的 ，main 函 数 创 建 了 文件 描述 符 ]istenfgd， 那 么 





15.5 半 同 步 / 半 反应 堆 线 程 池 实现 





本 节 我 们 实现 一 个 基于 图 8-10 所 示 的 半 同 步 / 半 反 应 堆 并 发 模式 的 线 
程 池 ， 如 代码 清单 15-3 所 示 。 相 比 代 码 清单 15-1 所 示 的 进程 池 实 现 ， 该 
线程 池 的 通用 性 要 局 得 多 ， 因 为 它 使 用 一 个 工作 队列 完全 解除 了 主线 程 
和 工作 线程 的 耦合 关系 : 主线 程 往 工 作 队 列 中 插入 任务 ， 工 作 线 程 通 过 
竞争 来 取得 任务 并 执行 它 。 不 过 ， 如 果 要 将 该 线程 池 应 用 到 实际 服务 器 
程序 中 ， 那 么 我 们 必须 保证 所 有 客户 请 求 都 是 无 状态 的 ， 因 为 同一 个 连 
接 上 的 不 同 请 求 可 能 会 由 不 同 的 线程 处 理 。 





代码 清单 15-3” 半 同步 / 半 反 应 堆 线程 池 实 现 





//filename:threadpool.h 

#ifndef THREADPOOL H 

#define THREADPOOL H 

#include=1list> 

#include=cstdio> 

#include=<=exception> 

#include=<=pthread.h> 

/* 引 用 第 14 章 介绍 的 线程 同步 机 制 的 包装 类 */ 

#include"locker.h" 

/* 线 程 池 类 ， 将 它 定义 为 模板 类 是 为 了 代码 复 用 。 模 板 参 数 T 是 任务 类 */ 

template<=typename T~> 

class threadpool 

{ 

public: 

/* 参 数 Lhread _number 是 线程 池 中 线程 的 数量 ，max requests 是 请 求 队列 中 最 多 允许 
的 、 等 待 处 理 的 请 求 的 数量 */ 

threadpool (int thread number=8,int max requests=10000); 

~threadpool () 

/* 往 请 求 队列 中 添加 任务 */ 

bool append (T*request); 









































V 
































private: 
/* 工 作 线 程 运行 的 函数 ， 它 不 断 从 工作 队列 中 取出 任务 并 执行 之 */ 
static void*worker (void*arg); 

VoL Eri( 

private: 

int m thread number;/* 线 程 池 中 的 线程 数 */ 

int m max_requests;/* 请 求 队列 中 允许 的 最 大 请 求 数 */ 









































std: :list<T*>m workqueue;/* 请 求 队列 */ 
locker m queuelocker;/* 保 护 请 求 队列 的 互 斥 锁 */ 
sem m queuestat;/* 是 否 有 任务 需要 处 理 */ 

bool m stop;/* 是 否 结束 线程 */ 

}; 

template<=typename T> 
































pthread t*m threads;/* 描 述 线程 池 的 数组 ， 其 大 小 为 m threaqd number*/ 


threadpool<T~>::threadpool (int thread number,int max requests): 


m thread number (thread number),m max requests (max requests),m stop 


{ 

if((thread number<==0)|| (max requests<==0)) 

{ 

throw std: :exception () ， 

} 

m threads=new pthread 七 [Im thread number]; 

if(!m threads) 

{ 

throw std: :exception () ， 

} 

/* 创 建 thread number 个 线程 ， 并 将 它们 都 设置 为 脱离 线程 */ 
for(int i=0;i<~thread number;++i) 

{ 

printf("create thegsdth thread\n",i); 

if (pthread create (m threads+i,NULL,worker,this)! 
{ 
delete[]m threads; 

throw std: :exception(); 

} 

if (pthread detach (m threads[i])) 
{ 
delete[]m threads; 

throw std: :exception(); 

} 

} 

} 

template<=typename T> 
threadpool<=T>::~threadpool () 
{ 

delete[]m threads; 

nm Stop=trOey 


} 

































































template<=typename 1T> 
bool threadpool<=T~>::append (T*request) 





{ 

/* 操 作 工 作 队列 时 一 定 要 加 锁 ， 因 为 它 被 所 有 线程 共享 */ 
m queuelocker.lock(); 

if(m workqueue.size()~>m max requests) 

{ 

m queuelocker.unlock(); 

return false; 

} 
m workgqueue.push back (request); 

m queuelocker.unlock(); 

m queuestat.post (); 

EEeturn true: 

} 

template<=typename T> 
void*threadpool<=T~>::worker (void*arg) 
{ 
threadpool*pool= (threadpool*)arg; 
pOGlL- Et() 

return pool; 

} 

template<=typename T> 

void threadpool<=T~>::run() 

{ 

while(!m stop) 

l 
m queuestat .wait (); 

m queuelocker.lock(); 
if(m workqueue.empty ()) 
m queuelocker.unlock(); 
continue; 

} 

T*request=m workqueue.front (); 
m workqueue.pop front(); 

m queuelocker.unlock(); 
if(!request) 

{ 

continue; 

} 

request-~>process ()，; 

} 

} 
#endif 


[EE | 












































值得 一 提 的 是 ， 在 C++ 程序 中 使 用 pthread_create 函 数 时 ， 访 函数 的 
第 3 个 参数 必须 指 同 一 个 静态 函数 。 而 要 在 一 个 静态 函数 中 使 用 类 的 动 
态 成 员 ( 包 括 成 员 函 数 和 成 员 变 量 ) ， 则 只 能 通过 如 下 两 种 方式 来 实 
现 : 


口 通过 类 的 静态 对 象 来 调用 。 比 如 单 体 模 式 中 ， 静 态 函数 可 以 通过 
类 的 全 局 唯一 实例 来 访问 动态 成 员 函 数 。 


口 将 类 的 对 象 作为 参数 传递 给 该 静态 函数 ， 然 后 在 议 态 函数 中 引用 
这 个 对 象 ， 并 调用 其 动态 方法 。 


代码 清单 15-3 使 用 的 是 第 2 种 方式 : 将 线程 参数 设置 为 this 指 针 ， 然 
后 在 worker 函 数 中 获取 该 指针 并 调用 其 动态 方法 run。 


15.6 ”用 线程 池 实现 的 简单 Web 服 务 钊 


在 8.6 节 中 ， 我 们 曾 使 用 有 限 状 态 机 实现 过 一 个 非常 简单 的 解析 
HITTP 请 求 的 服务 器 。 下 面 我 们 将 利用 前 面 介绍 的 线程 池 来 重新 实现 一 
个 并 发 的 Web 服务 器 


15.6.1 ”http_conn 类 


自 先 ， 我 们 需要 准备 线程 池 的 模板 参数 类 ， 用 以 封装 对 逻辑 任务 的 
处 理 。 这 个 类 是 http_conn， 代 码 清单 15-4 是 其 头 文 件 (http_conn.h) ， 
代码 清单 15-5 是 其 实现 文件 (http_conn.cpp)。 


代码 清单 15-4 http_conn.h 文 件 











#ifndef HTTPCONNECTION H 
#define HTTPCONNECT ON 卫 
#include=<=unistd.n> 
#include=signal.h> 
#include=<=sys/types.h> 
#include=<=sys/epoll.n> 
#include<=<fcntl.h> 
#include=sys/socket.h> 
#include<netinet/in.h> 
#include=<=arpa/inet.h> 
#include<assert.hn> 
#include=sys/stat.h> 
#include=string.h> 
#include=<=pthread.h> 
#include=stdio.h> 
#include=stdlib.n> 
#include=sys/mman.h> 





















































CH 


HTTP CODE{NO REQUEST,GET REQUEST,BAD REQUEST,NO RESOURCE,FORBIDDEN RE( 


ECK STATE{CHECK STATE REQUESTLINE=0,CHECK STATE HEADER,CHECK STATE ( 





#include=stdarg.h> 
#include=<errno.h> 

#include"locker.h" 

class http_ conn 


























































































































{ 

public: 

/* 文 件 名 的 最 大 长 度 * 

static const int FILENAME LEN=200; 
pe bit 

static const int READ BUFFER SIZE=2048; 
Au 与 区 的 大 小 

static const ' BUFFER SIZE=1024; 
/*HTTP 请 青 求 方法 ， 但 我 们 仅 支持 GaTx/ 

enum 








ETHOD{GET=0, POST, HEAD, PUT, DELETE, TRACE, OPTIONS, CONNECT, PATCH}; 
































/* 解 析 客户 请 求 时 ， 主 状态 机 所 处 的 状态 〈 回 忆 第 8 章 ) */ 


enum 
















































































/* 服 务 器 处 理 HTTP 请 求 的 可 能 结果 */ 


enum 
















































































/* 行 的 读 取 状 态 */ 
enum LINE STATUS{LINE OK=0,LINE BAD,LINE OPEN}; 
public: 
http conn(){} 
~http conn(){} 
public: 

/* 初 始 化 新 接受 的 连接 */ 

void init(int sockfd,const sockaddr in&addr); 
/* 关 闭 连 接 */ 

void close conn(bool real close=true); 

/* 处 理 客户 请 求 */ 

void process () ， 

/* 非 阻塞 读 操作 */ 

bool read(); 
/* 非 阻塞 写 操作 
bool write(); 
private: 

/* 初 始 化 连接 */ 
YO 让 加 闻 而 守 忆 (让 

/* 解 析 HTTP 请 求 */ 

HTTP CODE process read(); 

/* 填 充 HTTP 应 答 */ 

bool process write (HTTP CODE ret) 

/* 下 面 这 一 组 函数 被 process_read 调 用 以 分 析 HTTP 请 求 */ 
HTTP CODE parse request line(char*text); 
HTTP CODE parse headers (char*text); 

HTTP CODE parse content (char*text); 







































































水 






























































HTTP CO 
char*ge 

















/* 下 面 这 一 

















void unmap () ， 


bool add response (Const char* 
tent (const char*con 
tus line(int s 
bool add headers(int content 
tent length (in 


bool add con 
bool add sta 


bool add con 





bool add linger(); 
bool add blank line(); 


public: 


/* 所 有 socketj 











符 设置 为 静态 的 */ 





static 











static 


private: 
/* 该 HTTP 连 


int m s 


* 读 缓冲 


Int m epoll 


/* 统 计 用 户 数 量 */ 





fads 


DE do request(); 
t line() {return m read bu 
~ parse line(); 
有 函数 被 process_write 调 


























] 以 填充 























forma 











En 





int m user count; 








ockfd; 
sockaddr in m address; 


区 */ 








char m read buf [REA 


/* 标 识 读 缓冲 中 己 经 读 入 的 客户 数据 的 最 


D 





上 的 事件 都 被 注册 到 同 


上 ) 
tatus,const char*title); 
length); 

t content length); 


f+m start line;} 


HTTP 应 答 */ 


一 个 epol1 内 核 事 件 表 中 ， 所 以 将 espol1l 文 件 描述 








BUFFE 





'R 


S 











int m readq idx; 


/* 当 前 正在 分 析 的 字符 在 读 缓冲 


int m checked idx; 


/* 当 前 正在 解 








int m s 


char m 











CHECK STATE m check state; 


/* 请 求 方法 */ 


tart 


/* 写 缓冲 区 */ 





line; 











析 的 行 的 起 始 位 置 */ 














BUFFE 





区 中 的 位 置 */ 














接 的 socket 和 对 方 的 socket 地 址 */ 





write pbuf [WRIT 
7 安 组 渍 区 中 待 发 送 的 字 池 数 */ 


int m write idx; 


/* 主 状态 机 当前 所 处 的 状态 */ 





METHOD m method; 


/* 客 户 请 求 的 目标 文件 的 完整 路 径 ， 其 内 容 等 于 doc root+m url，doc root 是 网 立 


























目录 */ 
char m real file[FILENAME L 
/* 客 户 请 求 的 目标 文件 的 文件 名 */ 
char*m url; 


RS 


EN]; 


/*HTTP 协 议 版 本 号 ， 我 们 仪 支持 HTTP/1.1*/ 


char*m 





char*m 


/ 
host; 


, version; 


/* 主 机 名 * 





/*HTTPI 

















请 求 的 消息 体 的 长 度 */ 


到 本: 
后 个 字 节 的 下 一 个 位 置 */ 








5 根 








int m content length; 











/xHTTPT 
bool m 











青 求 是 否 要 求 保持 连接 */ 


Te 


/* 客 户 请 
char*m 
/* 目 标 文件 
文件 大 小 等 








言 息 */ 





struct stat m 


/* 我 们 将 采 

















过 它 我 们 可 以 判断 文件 是 否 存在 、 


file stat; 











写 内 存 块 的 数量 */ 
struct iovec m iv[2]; 
int m iv count; 


}; 


#endif 





青 求 的 目标 文件 被 mmap 到 内 存 中 的 起 始 位 置 */ 


file 0 


的 状态 9 





是 否 为 目录 、 











是 否 


可 读 ， 并 获取 


jwrifev 来 孜 行 写 操作 ， 所 以 定义 下 面 两 个 成 员 ， 其 中 miv_count 表 示 被 





代码 清单 15-5 “http_conn.cpp 文 件 





#include"nttp conn .hy" 
/* 定 义 HTTP 响 应 的 一 些 状态 信息 */ 
e="OK"; 


CONSL 
CoOons 
Cons 


inhnerently impossible 





Cons 
CoOons 


























t char*ok 200 titl] 
t char*error 400 
t char*error 400 


t char*error 403 
七 char*error 403 
from this server.\n"; 


tO 


satis 


title=" 

















R09 Bad Request 
_form="Your reques 
三 

~ tit le= "FOrDLdden 
form="You do not have permission to get 




























































































has bad syntax or is 





file 





found on 


const char*error 404 title="Not Found"; 

const char*error 404 form="The requested file was not 
this server.\n"; 

const char*error 500 title="Internal Error"; 

const char*error 500 form="There was an unusual problem serving 
the requested file.\n"; 

/* 网 站 的 根 目 录 */ 

const char*doc root="/var/www/html"; 

int setnonblocking (int fqd) 

{ 

int old option=fcntl (fd,F GETFL); 

int new option=old option|O NONBLOCK; 

cntl (fd,F SETFL,new option); 

return old option; 

} 

void addfd(int epollfd,int fd,bool one shot) 


{ 

















epoll event event; 


Evel 








t .data. 


fd- 








Fd; 





Vent .events= 
if (one shot) 


{ 








vent .events|= 








EPOLL N 











EPOLLET 

















} 


epoll ct (epol]1 


EPOLLONESHOT; 








FE 











setnonblocking (1 


} 








fd); 


EPOLL CTL ADD，| 











void removefd(int epollfd,in 


{ 


epoll ct (epol]1 





fa， 


t fqd) 























close (fqd);} 


} 

















EPOLL CTL DEL, fd,0); 


void modfd(int epollfd,int fd,int ev) 


{ 

















epoll event event; 
event .data.fd=fd; 
event .events=ev |EPOLLET |EPOLLON 








] 1 





























epoll ctl (epo 
} 





fd, EPOLL CTL MOD, 








int http conn::m user count=0; 
int http conn::m epollfd=-1; 














void http conn::close conn (Pool 








removefd (m epol1l: 





m sockfd=-1; 











if (real close&& (m sockfd!=- 





fd,m sockfd) 


工 ) ) 


r 


ESHOT | 





|EPOLLRDHUP; 


fd, &event); 


EPOLLRDHUP; 
fd, &event); 


real close) 


m_user_count--;/* 关 闭 一 个 连接 时 ， 将 客户 总 量 减 1*/ 


} 
} 


void http conn::init (int sock: 


{ 








m sockfd=sock 





fd; 
m address=addr; 



































fd, const sockaddr in&addr) 




















/* 如 下 两 行 是 为 了 避免 TIME_WAIT 状 态 ， 仅 用 于 调试 ， 实 际 使 用 时 应 该 去 掉 */ 


int reuse=1;} 





setsockopt (m socki 








reuse,sizeof (reus 


addfd (m epolj 











m user count 
Te ( 大 


} 








六 


) 








void http conn::init() 


{ 


m check state=CHI 
m linger=false; 








m method=GET; 












































fd, SOL SOCKET,SO REUSEADDR, & 
fd,sockfd,true); 
ECK STATE REQUESTLINE; 


7 

_ version=0; 

content length=0; 

-hosts0> 

start line=0; 

Checked idx=0; 

, read idx=0; 

write idx=0; 

emset (m read buf,'\0',READ BUFFER SIZE) 
emset (m write buf,'\0',WRITE BUFFER SIZ 
emset (m real file,'\0',FILENAME LEN); 
































I ~。 

















时 








h | 
























































} 

/* 从 状态 机 ， 其 分 析 请 参考 8 . 6 节 ， 这 里 不 再 费 述 */ 

http conn: :LINE STATUS http conn::parse line() 
{ 
char temp; 

for(;m checked idx<~m read idx;++m checked idx) 
{ 
temp=m read buf[m checked idx]; 
if (temp=="'\r') 

{ 
if((m checked idx+1)==m read idx) 
{ 
return LINE OPEN; 

} 

else if(m read buf[m check d idx+1]=="'\n') 
{ 
m read buf[m checked idx++]="'\0'; 
Ls f[Im checked idx++]="'\0'; 
return LINE OK; 


-> 

























































































return LINE BAD; 


} 
else if (temp=="'\n') 
{ 
1 











if((m checked idx>1)&& (m read buf[m checked idx-1]=="'\r')) 





m read buf[m checked idx-1]="'\0'; 
m read buf[m checked idx++]="'\0'; 
return LINE OK; 


























return LINE BAD; 























return LINE OPEN; 

} 

/* 循 环 读 取 客户 数据 ， 直 到 无 数据 可 读 或 者 对 方 关闭 连接 */ 
bool http conn::read!() 



































{ 
if(m read idx>=READ BUFFER SIZE) 
{ 








return false; 








int bytes read=0; 
while (true) 


{ 


























bytes read=recv(m sockfd,m read buf+m read idx,READ BUFFER S 














m read idx,0); 

if (bytes read==-1) 
{ 
if (errno==EAGAIN| |errno==EWOULDBLOCK) 
{ 

break; 

} 

return false; 

} 

else if (bytes read==0) 

{ 

return false; 

} 

m read idxt+=bytes read; 

} 

return true; 

} 
/* 解 析 HTTP 请 求 行 ， 获 得 请 求 方法 、 目 标 URL， 以 及 HTTP 版 本 号 */ 

http conn: :HTTP CODE http conn::parse request line (char*text) 
{ 
mi Url=sstrpbrk (texti" NE")> 
if(!m url) 

{ 

return BAD REQUEST; 

} 

*m url++="' \0"'; 
char*method=text; 
if(strcasecmp (method, "GET")==0) 
{ 
m method=GET; 

} 

else 

{ 

return BAD REQUEST; 

} 

m urlt+=strspn (m url,"\t"); 

m version=strpbrk(m url,"\t"); 
if(!Im version) 


{ 

















































































































return BAD REQUEST; 

} 

*m version++="'\0'; 

m version+=strspn (m version,"\t"); 

if (strcasecmp (m version, "HTTP/1.1")!=0) 
{ 
return BAD REQUEST? 

} 

if (strncasecmp (m url, "http://",7)==0) 
{ 

m url+=7; 

m url=strchr (m url,'/'); 

} 

if(!m url||lm url[0]!="'/") 

{ 

return BAD REQUEST; 

} 

m check State=CHECK STATE HEADER; 
return NO REQUEST; 

} 
/x* 解 析 HTTP 请 求 的 一 个 头 部 信息 */ 

http conn: :HTTP CODE http conn::parse headers (char*text) 
{ 
/* 过 到 空 行 ， 表示 头 部 字段 解析 完毕 */ 
if (text[0]=="'\0') 























































































































{ 

/* 如 果 HTTP 请 求 有 消息 体 ， 则 还 需要 读 取 m_content length 字 节 的 消息 体 ， 状 态 机 转 
移 到 CHECK STATE CONTENT 状 态 */ 
if(m content length!=0) 
{ 
m check state=CHECK STATE CONTENT; 
return NO REQUEST; 















































} 
/* 否 则 说 明 我 们 已 经 得 到 了 一 个 完整 的 HTTP 请 求 */ 
return GET REQUEST; 


























} 
/x* 处 理 Connection 头 部 字段 */ 
else ifl(strncasecmp (text,"Connection:",11)==0) 


{ 




















text+=11; 
text+=strspn (text,"\t"); 
if(strcasecmp (text,"keep-alive")==0) 





{ 

m linger=true; 

} 

} 

/x* 处 理 Content-Length 头 部 字段 */ 

else if(strncasecmp (text,"Content-Length:",15)==0) 




















[exX 七 二 =15， 
text+=strspn (text,"\t"); 





m content length=atol (text); 





. 
/x* 处 理 Host 头 部 字段 */ 





else if(strncasecmp (text,"Host:",5)== 


{ 
text+=5} 
textt+=s 




















m host=text; 


} 








trspn (text, "\t"); 


0) 


else 

{ 

printf ("oop!lunknow header%s\n",text); 
} 

return NO REQUEST; 


} 






































/* 我 们 没有 真正 解析 HTTP 请 求 的 消息 体 ， 只 是 判断 它 是 否 被 完整 地 读 入 了 */ 
http conn: :HTTP CODE http conn::parse content (char*text) 


{ 








{ 





if (m read idx~>=(m content lengtht+m checked idx)) 





text[m content lengtn]='\0'; 












































return GET REQUEST; 
} 

return NO REQUEST; 
} 

/* 主 状态 机 。 


http conn: :HTTP CODE 


{ 
L 








N 








HITE CODE ret=NO 














char*text=0;} 


EE STATUS line status=LINE OK; 
REQUEST; 
while(((m check state==CHECK STAT 
NE_OK) ) 


(line status==L 


















































||((line status=parse lin 


{ 


text=get line(); 
m start line=m checked idx; 








Brintt Cadt Ld 





Swi 


{ 





Case CHECK STATE 


{ 


tch(m check s 








tate) 





分 析 请 参考 8 .6 节 ， 这 里 不 再 袭 述 */ 


http conn::process read () 








E CONTENT) && 

















(主攻 








R 





EOQOUESTL 





NE: 








UeS 





ret=pars 
if (ret==1 








| 


t line (text); 








BAD REQU 





EST) 





{ 


tp line:Ss\n",text); 

















return BAD REQUEST; 

} 

break; 

} 

Case CHECK STATE HEADER: 
{ 
ret=parse headers (text); 
if (ret==BAD REQUEST) 

{ 
return BAD. REQUESTLS 
} 
else if (ret==GET REQUEST) 
{ 

return do request (); 

} 

break; 


} 
CaSe CHECK STATE CONTENT: 

























































































ret=parse content (text); 
if (ret==GET REQUEST) 























return do request (); 





line status=LINE OPEN; 

break; 

} 

default: 

{ 

return INTERNAL ERROR; 

} 

} 

} 

return NO REQUEST; 

} 

/* 当 得 到 一 个 完整 、 正 确 的 HTTP 请 求 时 ， 我 们 就 分 析 目 标 文件 的 属性 。 如 采 目 标 文件 存 
在 、 对 所 有 用 户 可 读 ， 且 不 是 目录 ， 则 使 用 mmap 将 其 映射 到 内 存 地 址 m file address 处 ， 
并 告诉 调用 者 获取 文件 成 功 */ 
http conn: :HTTP CODE http conn::do request() 












































































































































{ 

strcpy(m real file,doc root); 

int len=strlenl(doc root); 

strncpy (Im real filetlen,m url,FILENAME LEN-len-1); 
if(stat(m real file,&m file stat)<=0) 

{ 


return NO RESOURCE; 
} 
if(!(m file stat.st mode&s IROTH)) 




















{ 

return FORBIDDEN REQUEST 
} 
if(S ISDIR(m file stat.st mode)) 















































return BAD REQUESTS 

















int fd=open(m real file,O RDONLY); 
m file address= 
(char*)mmap (0,m file stat.st size,PROT READ,MAP PRIVATE, fd,0); 
close (fdq) ， 
return FILE REQUEST; 





















































} 

/* 对 内 存 映 射 区 执行 nunmapP 操 作 */ 

void http conn::unmap() 

{ 

if (m file address) 

{ 

munmap (m file address,m file stat.st size); 
m file address=0; 


} 





























} 

/* 写 HTTP 响 应 */ 

bool http conn::write!() 

{ 

int temp=0; 

int bytes have send=0; 

int bytes to send=m write idx; 
if (bytes to send==0) 




















modfd(m epollfd,m sockfd,EPOLLIN); 
init(); 
return true; 
} 
while (1) 
{ 
temp=writev(m sockfd,m iv,m iv count); 
if (temp==-1) 
{ 
/x* 如 果 TCP 写 缓冲 没有 空间 ， 则 等 待 下 一 轮 EPOLLOUT 事 件 。 虽 然 在 此 期 间 ， 服 务 器 无 法 
立即 接收 到 同一 客户 的 下 一 个 请 求 ， 但 这 可 以 保证 连接 的 完整 性 */ 
if (errno==EAGAIN) 
{ 
modfd(m epollfd,m sockfd,EPOLLOUT); 
return true; 
} 
unmap (); 
return false; 


































































































} 

bytes to send-=temp; 

bytes have send+=temp; 

if (bytes to send<=bytes have send) 











{ 

/* 发 送 HTTP 啊 应 成 功 ， 根 据 HTTP 请 求 中 的 Connection 字 上 段 决定 是 否 立 即 关 闭 连接 */ 
unmap (); 

if (m linger) 








(2 

modfd(m epollfd,m sockfd,EPOLLIN); 
return true; 

} 

else 

{ 

modfd(m epollfd,m sockfd,EPOLLIN); 
return false; 















































A a a 


/* 往 写 缓冲 中 写 入 待 发 送 的 数据 */ 
bool http conn::add response (const char*format,...) 
{ 
if (m_ write idx>=WRITE BUFFER SIZE) 
{ 
return false; 
} 
Va M18t 六 下 时 LISE? 
va start(arg list,format); 
int len=vsnprintf (m write buf+m write idx,WRITE BUFFER SIZE-1- 
m write idx,format,arg list); 
if (len~>= (WRITE BUFFER SIZE-1-m write idx)) 
{ 
return false; 
} 
m write idx+=len; 
va end(arg list); 
PEturn EUa 
} 
bool http conn::add status line(int status,const char*title) 
{ 
return add response("%$s%d%ss\r\n", "HTTP/1.1",status,title); 
} 
bool http conn::add headers (int content len) 
{ 
add content length (Content len); 
add linger () ， 




































































































































































add blank line(); 

} 

bool http conn::add content length(int content len) 

{ 

return add response("Content-Length:%sd\r\n",content len); 

} 

bool http conn::add linger() 

{ 

return add response("Connection:%$s\r\n", (Im linger==true)?"keep- 
alive":"close"); 

} 

bool http conn::add blank line() 

{ 

return add response("%s","\r\n"); 

} 

bool http conn::add content (const char*content) 


{ 


return add response ("$s",content); 























} 

/* 根 据 服 务 器 处 理 HTTP 请 求 的 结果 ， 决 定 返 回 给 客户 端的 内 容 */ 
bool http conn::process write (HTTP CODE ret) 

{ 

switch (ret) 

{ 
case INTERNAL ERROR: 
{ 
add status line(5S00,error 500 title); 
add headers (strlen (error 500 form)); 
if(!ladd content (error 500 form)) 

{ 

return false; 

} 

break; 

} 

case BAD REQUEST: 

{ 
add status line(400,error 400 title); 
add headers (strlen (error 400 form)); 
if(!ladd content (error 400 form)) 

{ 

return false; 

} 

break; 

} 

Case NO RESOURCE: 
{ 
add status line(404,error 404 title); 


add headers (strlen (error 404 form)); 














































































































if(!ladd content (error 404 form) ) 
{ 
return false; 
} 
break; 
} 
Case FORBIDDEN REQUEST: 
{ 
add status line(403,error 403 title); 
add headers (strlen (error 403 form)); 
if(!ladd content (error 403 form)) 
{ 
return false; 
} 
break; 
} 
case FILE REQUEST: 
{ 
add status line(200,o0ok 200 title); 
if(m file stat.st size!=0) 
{ 
add headers(m file stat.st size); 
m iv[0] .iov base=m write buf; 
[0] .iov len=m write idx; 
m iv[1].iov base=m file address; 
Lb ov .Fens=m file stat.St SLi2e 





































































































m iv count=2; 

return true; 

} 

人 Se 

{ 

const char*ok string="<html><body></body></html>"; 
add headers (strlen(ok string)); 
if(!ladd content (ok string)) 

{ 

return false; 

} 

} 








defauilt: 











return false; 





m iv[0] .iov base=m write bu 
m iv[0] .iov len=m write idx; 
m iv count=1; 
return true; 


AN。 


} 
/* 由 线程 池 中 的 工作 线程 调用 ， 这 是 处 理 HTTP 请 求 的 入 口 函 数 */ 


void http conn::process() 


{ 














HTTP CODE read ret=process read(); 





{ 











if (read ret==NO REQUEST) 














modfd(m epollfd,m sockfdqd, 
return; 


} 








EPOLL N) 7 

















bool write ret=process write(read ret); 








if (lwrite ret) 


close conn(); 








modfd(m epollfd,m sockfdqd, 





15.0.2 








main 函 数 


定义 好 任务 类 之 后 ，main 函 数 束 变 
读 写 ， 如 代码 清单 15-6 所 示 。 


EPOLLOUT); 


代码 清单 15-6 ”用 线程 池 实现 的 web 服务 器 





#incl 
#incl 
#incl 
#incl 
#incl 
#incl 
#incl 
#inc] 


ude=sys/socket.h> 
ude<=netinet/in.h> 
ude=<=arpa/inet.hn> 
ude=stdio.h> 
ude=unistd.n> 
ude=errno.h> 
ude=string.h> 
ude=fcntl.h> 








#incl 
#incl 
#incl 
#inc] 





ude=stdlipb.n> 
ude=cassert> 
ude=sys/epoll.h> 
ude"locker.h" 





#incl 
#incl 





ude"threadpool.h" 





ude"http conn.h" 


#define MAX FD 65536 

#define MAX EVENT NUMBER 10000 

extern int addfd(int epollfd,int fd,bool one shot); 
extern int removefd(int epollfd,int fdq) ， 

void addsig(int sig,void (handler) (int),bool restart=true) 
{ 

struct sigaction sa; 
memset (sa,'\0',sizeo 
sa.sa handler=handler; 
if (restart) 

{ 
sa.sa flags|=SA RESTART; 
} 
sigfillset (&sa.sa mask); 

assert (sigaction (sig,&sa,NULL) !=-1); 

} 

void show errorl(int connfd,const char*info) 

{ 

printf("%s",info); 

send (connfd,info,strlen (info),0);} 

close (connftd) ， 

} 

int main(int argc,char*argv[]) 

{ 

if (argc==2) 

{ 

printf("usage:%s ip address port number\n",basename (argv{[0])); 
return 1; 

} 

const char*ip=argv[1]; 

int port=atoi (argv[21); 

/* 忽 略 SIGPIPE 信 号 */ 



















































































(sa) ) ; 





































































































addsig (SIGPIPE,SIG IGN); 

/* 创 建 线程 池 */ 

threadpool<nhttp conn>*pool=NULL; 
ty 





{ 
pool=new threadpool<http conn>，; 


catch(...) 





exh eye Mls 





} 

/* 预 先 为 每 个 可 能 的 客户 连接 分 配 一 个 http_conn 对 象 */ 
http conn*users=new http conn[MAX FD]; 
assert (users); 

int user count=0; 

int listenfd=socket (PF INET,SOCK STREAM,0); 



































assert (11stenftdq 之 =0) ; 
struct linger tmp={1,0}; 
setsockopt (listenfd,SOL SOCKET,SO LINGER, &tmp,sizeo 
int ret=0; 
struct sockaddr in address; 
bzero (&address,sizeof (address)); 
address.sin family=AF INET; 
inet pton (AF INET,ip,&address.sin addr); 
address.sin port=htons (port); 
ret=bind (listenfd, (struct sockaddr*) &address,sizeof (address)); 
assert (ret~>=0)，; 
ret=listen (listenfd,5); 
assert (ret~>=0)，; 
epoll event events [MAX EVENT NUMBER]; 
int epollfd=epoll] create(5); 
assert (epollfd!=-1); 
addfd (epollfd,1listenfd,false); 
http conn::m epollfd=epollfdqd; 
while (true) 
{ 
int number=epoll wait (epollfd,events,MAX EVENT NUMBER,-1); 
if( (number=<0)&& (errno!=EINTR)) 
{ 
printf("epoll failure\n"); 
break; 
} 
for(int i=0;i<number;i++) 
{ 
int sockfd=events[i].data.fd; 
if (sockfd==listenfd) 
I 
struct sockaddr in client address; 
socklen t client addrlength=sizeof (client address); 
int connfd=accept (listenfd, (struct sockaddr*) &client address,& 
client addrlength); 
if (connfd=0) 
{ 
printf ("errno is:%Sd\n",errno); 
continue; 
} 
if (http conn::m user count~>=MAX FD) 
{ 
show error (connfd,"Internal server busy"); 
continue; 




















Fn 

















(tmP) ) ; 




































































































































































































































































} 
/* 初 始 化 客户 连接 */ 
users [connfdq] .init (connfd,client address); 


} 
































else if(events[il.events&(EPOLLRDHUP1EPOLLHUP1EPOLLERR) ) 
{ 
/* 如 果 有 异常 ， 直 接 关闭 客户 连接 */ 


users[lsockfd] .close conn(); 











lse if(levents[i] .events&EPOLLIN) 






































if (users[sockfd] .read()) 


e 

{ 

/* 根 据 读 的 结果 ， 决 定 是 将 任务 添加 到 线程 池 ， 还 是 关闭 连接 */ 
工 工 ( 

{ 





pool-~>append (users+sockfd) ， 

} 

else 

{ 

users[lsockfd] .close conn(); 

} 

} 

else if(events[i] .events&&EPOLLOUT) 

















{ 

/* 根 据 写 的 结果 ， 决 定 是 否 关 闭 连接 */ 
if(!Iusers[sockfd] .write()) 

{ 


users[lsockfd] .close conn(); 














close (epollfdqd); 
close (listenfd);} 
delete[]users; 
delete pool; 
return 0; 


} 


mR 

















第 三 篇 ”局 性 能 服务 絮 优 化 与 监测 
第 16 章 ”服务 器 调制 、 调 试 和 测试 


第 17 章 ”系统 监测 工具 


第 16 革 ”服务 强调 制 、 调 试 和 测试 


在 前 面 的 章节 中 ， 我 们 已 经 细致 地 探讨 了 服务 器 编程 的 诸多 方面 。 
现在 我 们 要 从 系统 的 角度 来 优化 、 改 进 服务 器 ， 这 包括 3 个 方面 的 内 
容 : 系统 调制 、 服 务 器 调试 和 压力 测试 。 


Linux 平 全 的 一 个 优秀 特性 是 内 核 微调 ， 即 我 们 可 以 通过 修改 文件 
的 方式 来 调整 内 核 参数 。16.2 节 将 讨论 与 服务 器 性 能 相关 的 部 分 内 核 参 
数 。 这 些 内 核 参 数 中 ， 系 统 或 进程 能 打开 的 最 大 文件 描述 符 数 尤其 重 
要 ， 所 以 我 们 在 16.1 节 单独 讨论 之 。 


在 服务 器 的 开发 过 程 中 ， 我 们 可 能 碰 到 各 种 意 想 不 到 的 错误 。 一 种 
调试 方法 是 用 tcpdump 抓 包 ， 正 如 本 书 前 面 章节 介绍 的 那样 。 不 过 这 种 
方法 主要 用 于 分 析 程 序 的 输入 和 输出 。 对 于 服务 器 的 逻辑 错误 ， 更 方便 
的 调试 方法 是 使 用 gdb 调 试 器 。 我 们 将 在 16.3 市 讨论 如 何 用 gdb 调 试 多 进 
程 和 多 线程 程序 。 








编写 压力 测试 工具 通常 被 认为 是 服务 占 开 友 的 一 个 部 分 。 压 力 测 试 
工具 模拟 现实 世界 中 局 并 发 的 客户 请 求 ， 以 测试 服务 器 在 高 压 状 态 下 的 
稳定 性 。 我 们 将 在 16.4 节 给 出 一 个 简单 的 压力 测试 程序 。 


16.1 最 大 文件 描述 符 数 


文件 描述 符 是 服务 器 程序 的 宝 贯 资源 ， 几 乎 所 有 的 系统 调用 都 是 和 
文件 描述 符 打交道 。 系 统 分 配给 应 用 程序 的 文件 描述 符 数 量 是 有 限制 
的 ， 所 以 我 们 必须 总 是 关闭 那些 已 经 不 再 使 用 的 文件 描述 符 ， 以 释放 它 
们 占用 的 资源 。 比 如 作为 守护 进程 运行 的 服务 器 程序 就 应 该 总 是 关闭 标 
准 输入 、 标 准 输出 和 标准 错误 这 3 个 文件 描述 符 。 


Linux 对 应 用 程序 能 打开 的 最 大 文件 描述 符 数 量 有 两 个 层次 的 限 
制 : 用 户 级 限制 和 系统 级 限制 。 用 户 级 限制 是 指 目标 用 户 运 行 的 所 有 进 
程 总 共 能 打开 的 文件 描述 符 数 ， 系 统 级 的 限制 是 指 所 有 用 户 总 共 能 打开 
的 文件 描述 符 数 。 











下 面 这 个 命令 是 最 党 用 的 得 看 用 户 级 文件 描述 符 数 限 制 的 方法 : 


Sulimit-n 





我 们 可 以 通过 如 下 方式 将 用 户 级 文件 摘 述 符 数 限制 设 定 为 max-file- 


number: 








Sulimit-SHn max-file-number 


不 过 这 种 设置 是 临时 的 ， 只 在 当前 的 session 中 有 效 。 为 永久 修改 用 
户 级 文件 描述 符 数 限制 ， 可 以 在 /etc/security/limits.conf 文 件 中 加 入 如 下 
两 项 : 








*hard nofile max-file-number 














*soft nofile max-file-number 








第 一 行 是 指 系 统 的 便 限 制 ， 第 二 行 古 软 限制 。 我 们 在 7.4 市 讨论 过 
这 两 种 资源 限制 。 


如 末 要 修改 系统 级 文件 描述 符 数 限制 ， 则 可 以 使 用 如 下 命令 : 




















sysctl-w fs.file-max=max-file-number 





不 过 该 命令 也 是 临时 更 改 系统 限制 。 要 永久 更 改 系 统 级 文件 描述 符 
数 限 制 ， 则 需要 在 /etc/sysctl.conf 文 件 中 添加 如 下 一 项 : 














fs .file-max=max-file-number 











然后 通过 执行 sysctl-p 命 令 使 更 改 生 效 。 


16.2 ”调整 内 核 参 数 


几乎 所 有 的 内 核 模块 ， 包 括 内 核 核心 模块 和 驱动 程序 ， 都 
在 /proc/sys 文 件 系统 下 提供 了 某 些 配置 文件 以 供用 户 调整 模块 的 属性 和 
行为 。 通 种 一 个 配置 文件 对 应 一 个 内 核 参数 ， 文 件 名 就 是 参数 的 名 字 ， 
文件 的 内 容 是 参数 的 值 。 我 们 可 以 通过 命令 sysctl-a 碍 看 所 有 这 些 内 核 参 
数 。 本 市 将 讨论 其 中 和 网 络 编程 关系 较为 紧密 的 部 分 内 核 参 数 。 





16.2.1 /proc/sys/fs 目 录 下 的 部 分 文件 


/proc/sys/fs 目 录 下 的 内 核 参数 都 与 文件 系统 相关 。 对 于 服务 器 程序 
来 说 ， 其 中 最 重要 的 是 如 下 两 个 参数 : 





口 /proc/sys/fsfile-max， 系 统 级 文件 描述 符 数 限制 。 直 接 修改 这 个 
参数 和 16.1 节 讨论 的 修改 方法 有 相同 的 效果 《〈 不 过 这 是 临时 修改 ) 。 一 
般 修改 /proc/sys/fs/file-max 后 ， 应 用 程序 需要 把 /proc/sys/fs/inode-max 设 
置 为 新 /proc/sys/fs/file-max 值 的 3 一 4 倍 ， 人 否则 可 能 导致 节点 数 不 够 用 。 


口 /proc/sys/fs/epoll/max_user_watches， 一 个 用 户 能 够 往 epoll 内 核 事 
件 表 中 注册 的 事件 的 总 量 。 它 是 指 该 用 户 打开 的 所 有 epoll 实 例 总 共 能 监 
听 的 事件 数目 ， 而 不 是 单个 epol 实 例 能 监听 的 事件 数目 。 往 epoll 内 核 事 
件 表 中 注册 一 个 事件 ， 在 32 位 系统 上 大 概 消耗 90 字 节 的 内 核 空间 ， 在 64 


位 系统 上 则 消耗 160 字 节 的 内 核 空间 。 所 以 ， 这 个 内 核 参 数 限制 了 epoll 
使 用 的 内 核 内 存 总 量 。 


16.2.2 /proc/sys/net 目 录 下 的 部 分 文件 


内 核 中 网 络 模块 的 相关 参数 都 位 于 /proc/sys/net 目 录 下 ， 其 中 和 
TCP/IP 协 议 相 关 的 参数 主要 位 于 如 下 三 个 子 目 录 中 : core、ipv4 和 
ipv6。 在 前 面 的 章节 中 ， 我 们 已 经 介绍 过 这 些 子 目录 下 的 很 多 参数 的 含 
义 ， 现 在 再 总 结 一 下 和 服务 器 性 能 相关 的 部 分 参数 。 











口 /proc/sysmet/core/somaxconn， 指 定 listen 监 听 队 列 里 ， 能 够 建立 完 
整 连接 从 而 进入 ESTABLISHED 状 态 的 socket 的 最 大 数目 。 读 者 不 妨 修 
改 该 参数 并 重新 运行 代码 清单 5-3， 看 看 其 影响 。 


口 /proc/sys/neUipv4/tcp_max_syn_backlog， 指 定 listen 监 听 队 列 里 ， 
能 够 转移 至 ESTAB-LISHED 或 者 SYN_RCVD 状 态 的 socket 的 最 大 数目 。 


/proc/sys/net/ipv4/tcp_wmem， 它 包含 3 个 值 ， 分 别 指定 一 个 socket 


的 TCP 写 缓冲 区 的 最 小 值 、 默 认 值 和 最 大 值 。 


DD/proc/sys/net/ipv4/tcp_rmem， 它 包含 3 个 值 ， 分 别 指定 一 个 socket 
的 TCP 读 缓冲 区 的 最 小 值 、 默 认 值 和 最 大 值 。 在 代码 清单 3-6 中 ， 我 们 正 
是 通过 修改 这 个 参数 来 改变 接收 通告 窗口 大 小 的 。 


口 /proc/sysneUipv4/tcp_syncookies， 指 定 是 否 打开 TCP 同 步 标 签 
Csyncookie) 。 同 步 标签 通过 启动 cookie 来 防止 一 个 监听 socket 因 不 停 
地 重复 接收 来 自 同一 个 地 址 的 连接 请 求 〈 同 步 报 文 段 ) ， 而 导致 isten 监 
听 队 列 溢出 《所 谓 的 SYN 风 暴 ) 。 





除了 通过 直接 修改 文件 的 方式 来 修改 这 些 系统 参数 外 ， 我 们 也 可 以 
使 用 sysct 命 令 来 修改 它们 。 这 两 种 修改 方式 都 是 临时 的 。 永 久 的 修改 
方法 是 在 /etc/sysctl.conf 文 件 中 加 入 相应 网 络 参数 及 其 数值 ， 并 执行 
sysctl-p 使 之 生效 ， 就 像 修 改 系统 最 大 允许 打开 的 文件 描述 符 数 那样 。 


16.3 gdb 调 试 


Linux 程 序 员 必然 都 使 用 过 gdb 调 试 器 来 调试 程序 。 我 们 也 假设 读者 
懂得 基本 的 gdb 调 斌 方法， 比如 设置 断 点 ， 碍 看 变量 等 。 这 一 节 要 讨论 
的 是 如 何 使 用 gdb 来 调试 多 进程 和 多 线程 程序 ， 因 为 这 是 后 台 程 序 调试 
不 可 避免 而 又 比较 困难 的 部 分 。 








16.3.1 用 gdb 调 试 多 进程 程序 








如 果 一 个 进程 通过 fork 系 统 调 用 创建 了 子 进程 ，gdb 会 继续 调试 原来 
的 进程 ， 子 进程 则 正常 运行 。 那 么 该 如 何 调试 子 进程 呢 ? 常 用 的 方法 有 
如 下 两 种 。 

1. 单 独 调试 子 进程 

子 进程 从 本 质 上 说 也 是 一 个 进程 ， 因 此 我 们 可 以 用 通用 的 gdb 调 试 
方法 来 调试 它 。 举 例 来 说 ， 如 果 要 调试 代码 清单 15-2 描 述 的 CGI 进程 池 
服务 器 的 某 一 个 子 进 程 ， 则 我 们 可 以 先 运行 服务 器 ， 然 后 找到 目标 子 进 
程 的 PID， 再 将 其 附加 attach) 到 gdb 调 试 器 上 ， 有 具体 操作 如 代码 清单 
16-1 所 示 。 


代码 清单 16-1 通过 附加 子 进 程 的 PID 来 调试 子 进程 





$./cgisrv 127.0.0.1 12345 
Spbs-ef|grep cgisrv 























































































































shuang 4182 3601 0 12:25 pts/4 00:00:00./cgisrv 127.0.0.1 12345 
shuang 4183 4182 0 12:25 pts/4 00:00:00./cgisrv 127.0.0.1 12345 
shuang 4184 4182 0 12:25 pts/4 00:00:00./cgisrv 127.0.0.1 12345 
shuang 4185 4182 0 12:25 pts/4 00:00:00./cgisrv 127.0.0.1 12345 
shuang 4186 4182 0 12:25 pts/4 00:00:00./cgisrv 127.0.0.1 12345 
shuang 4187 4182 0 12:25 pts/4 00:00:00./cgisrv 127.0.0.1 12345 
shuang 4188 4182 0 12:25 pts/4 00:00:00./cgisrv 127.0.0.1 12345 
shuang 4189 4182 0 12:25 pts/4 00:00:00./cgisrv 127.0.0.1 12345 
shuang 4190 4182 0 12:25 pts/4 00:00:00./cgisrv 127.0.0.1 12345 
$gdb 

(gdb)attach 4183/* 将 子 进程 4183 附 加 到 ggb 调 试 器 */ 

Attaching to process 4183 

Reading symbols from/home/shuang/codes/pool process/cgisrv...done. 
Reading symbols from/usr/lib/libstdc++.so.6...Reading symbols 














from/usr/lib/debug/usr/lib/libstdc++.so.6.0.16.debug...done. 
done. 
Loaded symbols for/usr/lib/lipbstdc++.so.6 
Reading symbols from/lib/libm.so.6... (no debugging symbols 
found) .. .done. 
Loaded symbols for/lipb/libm.so.6 
Reading symbols from/lib/libgcc s.so.1...Reading symbols 
from/usr/lib/debug/lib/libgcc s-4.6.2-20111027.so.1.debug...done. 
done. 
Loaded symbols for/lib/libgcc s.so.1 
Reading symbols from/lib/libc.so.6... (no debugging symbols 
found) .. .done. 
Loaded symbols for/lipb/libc.so.6 
Reading symbols from/lib/ld-linux.so.2... (no debugging symbols 
found) .. .done. 
Loaded symbols for/lib/ld-linux.so.2 
Ox0047c416 in kernel vsyscall() 
(gdb)b processpool.h:264/* 设 置 子 进程 中 的 断 点 */ 
Breakpoint 1 at Ox8049787:file processpool.h,line 264. 
(gdb)c 
Continuing. 
/* 接 下 来 从 另 一 个 终端 使 用 telnet 127.0.0.1 12345 来 连接 服务 器 并 发 送 一 些 数 据 ， 
调试 器 就 按照 我 们 预期 的 ， 在 断 点 处 暂停 */ 
Breakpoint 1,processpool<cgi conn>::run child(this=0x9a47008)at 
processpool.h:264 
264 users[sockfd] .process (); 
(gdb) bt 
#0 processpool<cgi conn>::run child(this=0x9a47008)at 
processpool.h:264 
#1 0x080491fe in processpool<cgi conn>::run(this=0x9a47008)at 
processpool.h:169 
#2 Ox08048ef9 in main(argc=3,argv=0xbfbc0b74)at main.cpp:138 





















































































































































(gadb) 





2. 使 用 调试 器 选项 follow-fork-mode 


ti 
统 调 用 后 是 继续 调试 父 进 程 还 是 调试 子 进程 。 其 用 法 如 下 : 











(gdb) set follow-fork-mode mode 








其 中 ，mode 的 可 选 值 是 parent 和 child， 分 别 表 示 调 试 父 进程 和 子 进 
程 。 还 是 使 用 前 面 的 例子 ， 这 次 考虑 使 用 follow-fork-mode 选 项 来 调试 子 
进程 ， 如 代码 清单 16-2 所 示 。 


代码 清单 16-2 ”使 用 follow-fork-mode 选 项 调试 子 进程 





$gdb./cgisrv 
(gdb) set follow-fork-mode child 
(gdb)b processpool.h:264 
Breakpoint 1 at Ox8049787:file processpool.h,line 264. 
(gdb)r 127.0.0.1 12345 

Starting program:/home/shuang/codes/pool process/cgisrv 127.0.0.1 
12345 

[New process 4148] 

send request to child 0 
[Switching to process 4148] 
Breakpoint 1,processpool<cgi conn>::run child(this=0x804c008)at 
processpool.h:264 

264 users[sockfd] .process (); 
Missing separate debuginfos,use:debuginfo-install glibc-2.14.90- 
24.fc16.6.1686 

(gdb) bt 

#0 processpool<cgi conn>::run child(this=0x804c008)at 
processpool.h:264 

#1 0x080491fe in processpool<cgi conn>::run(this=0x804c008)at 
processpool.h:169 







































































#2 Ox08048ef9 in main(argc=3,argv=0xbffff4e4)at main.cpp:138 
(gdb) 











16.3.2 ”用 gdb 调 试 多 线程 程序 


gdb 有 一 组 命令 可 辅助 多 线程 程序 的 调试 。 下 面 我 们 仪 列举 其 中 常 


Dinfo threads， 显 示 当 前 可 调试 的 所 有 线程 。gdb 会 为 每 个 线程 分 
配 一 个 ID， 我 们 可 以 使 用 这 个 ID 来 操作 对 应 的 线程 。ID 前 面 有 “*>” 号 的 
线程 是 当前 被 调试 的 线程 。 


Dthread ID， 调 试 目 标 ID 指 定 的 线程 。 


口 set scheduler-locking[offlon|step]。 调 试 多 线程 程序 时 ， 默 认 除 了 
被 调试 的 线程 在 执行 外 ， 其 他 线程 也 在 继续 执行 ， 但 有 的 时 候 我 们 希望 
只 让 被 调试 的 线程 运行 。 这 可 以 通过 这 个 命令 来 实现 。 该 命令 设置 
scheduler-locking 的 值 : off 表 示 不 锁定 任何 线程 ， 即 所 有 线程 都 可 以 继 
续 执 行 ， 这 是 默认 值 ，on 表 示 只 有 当前 被 调试 的 线程 会 继续 执行 ，step 
表示 在 单 步 执 行 的 时 候 ， 只 有 当前 线程 会 执行 。 





举例 来 说 ， 如 果 要 依次 调试 代码 清单 15-6 所 描述 的 Web 服 务 器 (名 
为 websrv) 的 父 线程 和 子 线程 ， 则 可 以 采用 代码 清单 16-3 所 示 的 方法 。 





代码 清单 16-3 ”独立 调试 父 线程 和 子 线程 





$gdb./websrv 
(gdb)b main.cpp:130/* 设 置 父 线程 中 的 断 点 */ 
Breakpoint 1 at Ox80498d3:file main.cpp,line 130. 
(gdpb)b threadpool.h:105/* 设 置 子 线 程 中 的 断 点 */ 
Breakpoint 2 at 0x804al0b:file threadpool.h,line 105. 
(gdb})r 127.0%0..1 12345 
Starting program:/home/webtop/codes/pool thread/websrv 127.0.0.1 
12343 
[Thread debugging using libthread db enabled] 
Using host libthread db library"/lib/libthread db.so.1". 
create the Oth thread 
[New Thread Oxb7felb40 (LWP 5756)] 
/* 从 另 一 个 终端 使 用 telnet 127.0.0.1 12345 来 连接 服务 器 并 发 送 一 些 数据 ， 调 试 器 
就 按照 我 们 预期 的 ， 在 断 点 处 暂停 */ 
Breakpoint 1,main (argc=3,argv=0xbf 
130 if(users[lsockfd].read()) 
(gdb) info threads/* 查 看 线程 信息 。 当 前 被 调试 的 是 主线 程 ， 其 ID 为 1*/ 
Id Target Id Frame 
2 Thread Oxb7felb40 (LWP 5756) "websrv"O0x00111416 
in kernel vsyscall() 
*] Thread Oxb7fe3700 (LWP 
5753) "websrv"main (argc=3,argv=0xb f4e4)at main.cpp:130 
(gdb) set scheduler-locking on/* 不 执行 其 他 线程 ， 锁 定 调试 对 象 x/ 
(gdb)n/* 下 面 的 操作 都 将 执行 父 线程 的 代码 */ 
132 pool-~>>append (users+sockfd); 
(gdb)n 
103 for(int i=0;i<number;i++t 
(gdb) 
94 while (true) 
(gdb) 
96 int number=epoll wait (epollfd,events,MAX EVENT _ NUMBER, -1L) 
(gdb) 
SG 
Program received signal SIGINT,Interrupt. 
Ox00111416 in kernel vsyscall() 
(gdb) thread 2/* 将 调试 切换 到 子 线程 ， D 为 2*/ 
[Switching to thread 2 (Thread Oxb7felb40 (LWP 5756))] 













































































f4e4)at main.cpp:130 
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#0 Ox00111416 in kernel vsyscall() 

(gdqb) bt/* 显 示 子 线程 的 调用 栈 */ 

#0 Ox00111416 in kernel vsyscall() 

#1 Ox44d91c05 in sem wait@Q@GLIBC 2.1()from/lib/libpthread.so.0 




















#2 Ox08049aff in sem: :wait (this=0x804e034) at locker.h:24 

#3 Ox0804a0db in threadpool<nttp conn>::run(this=0x804e008)at 
threadpool.h:98 
#4 Ox08049f8f in threadpool<nhttp conn>::worker (arg=0x804e008)at 
threadpool.h:89 

#5 Ox44d8bcd3 in start thread()from/lib/libpthread.so.0 





















































#6 0x44cc8a2e in clone()from/l1lib/libc.so.6 











(gdb)n/* 下 面 的 操作 都 将 执行 子 线程 的 代码 */ 








Single stepping until exit 


from 


function kernel vsyscall, 














which has no line number information. 





Ox44d91c05 in sem wait@@GLI 








BC 2.: 





() 





from/lib/libpthread.so.0 





(gadb) 





最 后 ， 关 于 调试 进程 池 和 线程 池 程 序 的 一 个 不 错 的 方法 ， 是 先 将 池 
中 的 进程 个 数 或 线程 个 数 减 少 至 1， 以 观察 程序 的 逻辑 是 否 正确 ， 比 如 
代码 清单 16-3 就 是 这 样 做 的 ;然后 逐步 增加 进程 或 线程 的 数量 ， 以 调试 





进程 或 线程 的 同步 是 否 正确 。 


16.4 压力 测试 














压力 测试 程序 有 很 多 种 实现 方式 ， 比 如 IO 复 用 方式 ， 多 线程 、 多 
进程 并 发 编程 方式 ， 以 及 这 些 方式 的 结合 使 用 。 不 过 ， 单 纯 的 MO 复 用 
方式 的 施 压 程 度 是 最 高 的 ， 因 为 线程 和 进程 的 调度 本 身 也 是 要 占用 一 定 
CPU 时 间 的 。 因 此 ， 我 们 将 使 用 epoll 来 实现 一 个 通用 的 服务 器 压力 测试 
程序 ， 如 代码 清单 16-4 所 示 。 





代码 清单 16-4 ”服务 器 压力 测试 程序 





#include= si 





#include=stdio 
#include=assert.h> 


#include=unist 
#include=sys/i 





tdlipb.hn> 
al 


Ed eh 
types.h> 


#includqe< sys/epol1.n> 
#include=fcnt] 








sh > 


#include=sys/socket.hn> 
#include<netinet/in.h> 
#include=<=arpa/inet.h> 
#include=string.h> 
/* 每 个 客户 连接 不 停 地 向 服务 器 发 送 这 个 请 求 */ 








static const charxred 





uest="GET http://localhost/index.html 


HTTP/1.1\r\nConnection:keep-alive\r\n\r\nxxxxxxxxxxxx"; 


int setnonblocking (in 


{ 

















EeStCUEN © 


} 





t fd) 














fcntl1( 








int old option= 
int new op 

















void addf 


{ 


ons; 





Fd,F GI 


ETEFL); 





tion=old option|O NONBLOCK; 
cntl (fd,F SETFL,new option); 
ld opti 








fd, int 





Eq) 





d(int epoll 


epoll event event; 





event .data.fdqd= 











fa， 





event .events=EPOLLOUT |EPOLLET |EPOLLERR; 

epoll ctl(epoll fd,EPOLL CTL ADD,fd,&event); 
setnonblocking (fd); 

} 
/* 癌 服务 器 写 入 len 字 节 的 数据 */ 

bool write nbytes (int sockfd,const char*buffer,int len) 
{ 

int bytes write=0; 

printf ("write out%d bytes to socket%d\n",1len,sockfqd); 
while(1) 

{ 

bytes write=send (sockfd,buffer,1len,o); 

if (bytes write==-1) 

{ 

return false; 

} 

else if (bytes write==0) 

{ 

return false; 

} 
len-=bytes write; 
buffer=buffertbytes write; 
if (len<==0) 

{ 

return true; 

} 

} 


} 
/* 从 服务 器 读 取 数据 */ 
bool read oncel(int sockfd,char*buffer,int len) 
{ 
int bytes read=0; 
memeset (butfer, 0 .Lem)> 
bytes read=recv (sockfd,buffer,1len,o); 
if (bytes read==-1) 
{ 
return false; 
} 
else if (bytes read==0) 
{ 
return false; 
} 
printf("read in%d bytes from sockets®%d with 
content:%s\n",bytes read,sockfd,buffer); 
return true; 
} 
/* 向 服务 器 发 起 num 个 TCP 连 接 ， 我 们 可 以 通过 改变 num 来 调整 测试 压力 */ 


void start connl(int epoll fd,int num,const char*ip,int port) 




















































































































































































































{ 

int ret=0; 
struct sockaddr in address; 

bzero (&address,sizeof (address)); 

address.sin family=AF INET; 

inet pton (AF INET,ip,&address.sin addr); 

address.sin port=htons (port); 

for(int i=0;i<num;++i) 

{ 

sleep(1); 

int sockfd=socket (PF INET,SOCK STREAM,0); 

printf("create 1 sock\n"); 

if (sockfd=0) 

{ 

continue; 

} 

if(connect (sockfd, (struct sockaddr*) &address,sizeof (address) )==0) 
{ 
printf ("build connections$d\n",i); 
addfd(epoll fd,sockfdqd); 

} 

} 

} 

void close connl(int epoll fd,int sockfd) 
{ 
epoll ctl (epoll fqd,EPOLL CTL DEL,sockfd,o0); 
close (sockfqd); 

} 

int main(int argc,char*argv[]) 

{ 
assert (argc==4);} 

int epoll fd=epoll create(100); 

start conn(epoll fd,atoi(argv[3]),argv[1],atoi(argv[2])); 
epoll event events[10000]; 

char buffer[2048]; 

while (1) 

{ 

int fds=epoll wait (epoll fd,events,10000,2000); 

for (int i=0;i<fds;i++) 

{ 

int sockfd=events[i].data.fd; 

if (events[i] .events&EPOLLIN) 

{ 
if(!read once(sockfd,buffer,2048)) 
{ 
close connl(epoll fd,sockfd); 
} 


struct epoll event event; 








































































































































































































event .events=EPOLLOUT |EPOLLET |EPOLLERR; 

event data,ftd=eockfd; 

epoll ctl(epoll fd,EPOLL CTL MOD,sockfd, &event); 
} 





















































lse if(events[i] .events&EPOLLOUT) 














f (lwrite nbytes (sockfd,request,strlen (request))) 








{ 
i 
{ 
close connl(epoll fd,sockfd); 

} 

struct epoll event event; 

vent .events=EPOLLIN|EPOLLET|EPOLLERR; 
event.data.fd=sockfd; 
epoll ctl(epoll fd,EPOLL CTL MOD,sockfd, &event); 
} 






























































se if(levents[i] .events&EPOLLERR) 





























lose conn(epoll fd,sockfd); 








下 面 考虑 使 用 该 压力 测试 程序 〈 名 为 stress_test) 来 测试 代码 清单 
15-6 所 描述 的 web 服务 器 的 稳定 性 。 我 们 先 在 测试 机 器 ernest-laptop 上 运 
行 websrv， 然 后 从 Kongming20 上 执行 stress_test， 回 websrv 服 务 器 发 起 
1000 个 连接 。 有 具体 操作 如 下 : 











$./websrv 192.168.1.108 12345# 在 ernest-laptop 上 执行 ， 监 听 端 口 12345 
$./stress test 192.168.1.108 12345 1000# 在 Kongming20 上 执行 








如 果 websrv 服 务 嚣 程序 足够 稳定 ， 那 么 websrv 和 和 stress_test 这 两 个 程 
序 将 一 直 运 行 下 去 ， 并 不 断交 换 数 据 。 





第 17 章 ”系统 监测 工具 


Linux 提 供 了 很 多 有 用 的 工具 ， 以 方便 开发 人 员 调 试 和 测评 服务 天 
程序 。 娴 数 的 网 络 程序 员 在 开发 服务 器 程序 的 整个 过 程 中 ， 郑 将 不 断 地 
使 用 这 些 工 具 中 的 一 个 或 者 多 个 来 监测 服务 器 行为 。 其 中 的 茶 些 工具 更 
古 黑 客 们 常用 的 利器 。 


本 章 将 讨论 几 个 最 常用 的 工具 : tcpdump、nc、strace、lsof、 
netstat、vmstat、ifstat 和 mpstat。 这 些 工具 都 支持 很 多 种 选项 ， 不 过 我 们 
的 讨论 仅 限于 其 中 最 常用 、 最 实用 的 那些 。 


17.1 tcpdump 


tcpdump 是 一 款 经 典 的 网 络 抓 包工 具 。 即 使 在 今天 ， 我 们 拥有 像 
Wireshark 这 样 更 易于 使 用 和 掌握 的 抓 包 工具 ，tcpdump 仍 然 是 网 络 程 序 
员 的 必 备 利器 。 


tcpdump 给 使 用 者 提供 了 大 量 的 选项 ， 用 以 过 滤 数 据 包 或 者 定制 输 
出 格式 。 前 面 章节 中 我 们 介绍 过 其 中 的 一 些 ， 现 在 我 们 把 常见 的 选项 总 
结 如 下 : 


DD-n， 使 用 IP 地 址 表示 主机 ， 而 不 是 主机 名 ; 使 用 数字 表示 端口 


号 ， 而 不 是 服务 名 称 。 





口 -i， 指 定 要 监听 的 网 卡 接口 。“-i any” 表 示 抓 取 所 有 网 卡 接口 上 的 
数据 包 。 


口 -v， 输 出 一 个 稍微 详细 的 信息 ， 例 如 ， 显 示 卫 数据 包 中 的 TIL 和 
TOS 信 息 。 


口 -t， 不 打印 时 间 惟 。 


D-e， 显 示 以 太 网 帧 头 部 信息 。 





D-c， 仅 抓 取 指定 数量 的 数据 包 。 





口 x， 以 十 六 进 制 数 显 示 数 据 包 的 内 容 ， 但 不 显示 包 中 以 太 网 帧 的 


口 -X， 与 -x 选项 类 似 ， 不 过 还 打印 每 个 十 六 进 制 字 市 对 应 的 ASCII 


口 -XX， 与 -X 相 同 ， 不 过 还 打印 以 太 网 帧 的 头 部 信息 。 


口 -s， 设 置 抓 包 时 的 抓 取 长 度 。 当 数据 包 的 长 度 超 过 抓 取 长 度 时 ， 
tcpdump 抓 取 到 的 将 是 被 截断 的 数据 包 。 在 4.0 以 及 之 前 的 版 本 中 ， 默 认 
的 抓 包 长 度 是 68 字 节 。 这 对 于 IP、TCP 和 UDP 等 协议 就 已 经 足够 了 ， 但 
对 于 像 DNS、NFS 这 样 的 协议 ，68 字 通常 不 能 容纳 一 个 完整 的 数据 





包 。 比 如 我 们 在 1.6.3 小 节 抓 取 DNS 数 据 包 时 ， 束 使 用 了 -s 选 项 (测试 机 
器 ernest-laptop 上 ，tcpdump 的 版 本 是 4.0.0) 。 不 过 4.0 之 后 的 版 本 ， 默 认 
的 抓 包 长 度 被 修改 为 65 535 字 市 ， 因 此 我 们 不 用 再 担心 抓 包 长 度 的 问题 
迁 有 





口 -$， 以 绝对 值 来 显示 ITCP 报 文 段 的 序号 ， 而 不 是 相对 值 。 
DQ-w， 将 tcpdump 的 输出 以 特殊 的 格式 定 同 到 某 个 文件 。 


DD-r， 从 文件 读 取 数据 包 信 息 并 显示 之 。 





除了 使 用 选项 外 ，tcpdump 还 支持 用 表达 式 来 进一步 过 滤 数 据 包 。 
tcpdump 表 达 式 的 操作 数 分 为 3 种 : 类 型 (type) 、 方 同 (dir) 和 协议 
Cproto) 。 下 面 依次 介绍 之 。 


口 类 型 ， 解 释 其 后 面 紧 跟着 的 参数 的 含义 。tcpdump 文 持 的 类 型 包 
括 host、net、port 和 portrange。 它 们 分 别 指定 主机 名 (或 I P 地 址 ， ， 用 
CIDR 方 法 表示 的 网 络 地 址 ， 端 口号 以 及 端口 范围 。 比 如 ， 要 抓 取 整个 
1.2.3.0/255.255.255.0 网 络 上 的 数据 包 ， 可 以 使 用 如 下 命令 : 


Stcpdqump net 1.2.3.0/24 





口 方向 ，src 指 定数 据 包 的 发 送 端 ，dst 指 定数 据 包 的 目的 端 。 比 如 
要 抓 取 进入 端口 13579 的 数据 包 ， 可 以 使 用 如 下 命令 : 


StcpdqumpP dst port 13579 


口 协 议 ， 指 定 目 标 协 议 。 比 如 要 抓 取 所 有 ICMP 数 据 包 ， 可 以 使 用 
如 下 命令 : 


Stcpdqump icmp 





当然 ， 我 们 还 可 以 使 用 逻辑 操作 符 来 组 织 上 述 操作 数 以 创建 更 复杂 
的 表达 式 。tcpdump 文 持 的 逻辑 操作 符 和 编程 语言 中 的 逻辑 操作 符 完 
相同 ， 包 括 and〈 或 者 & 区 ) 、or (或 者 |) 、not (或 者 !) 。 比 如 要 抓 
取 主 机 ernest-laptop 和 所 有 非 Kongming20 的 主机 之 间 交 换 的 IP 数 据 包 ， 
可 以 使 用 如 下 命令 : 


$stcpdump ip host ernest-laptop and not Kongming20 


如 果 表 达 式 比较 复杂 ， 那 么 我 们 可 以 使 用 括号 将 它们 分 组 。 不 过 在 
使 用 括号 时 ， 我 们 要 么 使 用 反 斜 杠 “* 对 它 转 义 ， 要 么 用 单 引 号 “” 将 其 
括 住 ， 以 避免 它 被 shell 所 解释 。 比 如 要 抓 取 来 自主 机 10.0.2.4， 目 标 端 口 
是 3389 或 22 的 数据 包 ， 可 以 使 用 如 下 命令 : 


stoepdump'sreo.10.0;,2,4 andl(tdst Bort 3389 Sr 22)" 


此 外 ，tcpdump 还 允许 直接 使 用 数据 包 中 的 部 分 协议 字段 的 内 容 来 
过 滤 数 据 包 。 比 如 ， 仅 抓 取 TCP 同 步 报 文 段 ， 可 使 用 如 下 命令 : 





$tcpdump'tcp[13] &2!=0' 





这 和 古 因为 TCP 头 部 的 第 14 个 字 节 的 第 2 个 位 正 是 同步 标志 。 该 命令 
也 可 以 表示 为 : 








$tcpdump'tcp[tcpflags] &tcp-syn!=0'。 





最 后 ，tcpdump 的 具体 输出 格式 除了 与 选项 有 关外 ， 还 与 协议 有 
关 。 前 文中 我 们 讨论 过 IP、TCP、ICMP、DNS 等 协议 的 tcpdump 输 出 格 
式 。 关 于 其 他 协议 的 tcpdump 输 出 格式 ， 请 读者 自己 参考 tcpdump 的 man 
手册 ， 本 书 不 再 更 述 





17.2 lsof 


lsof (list open file) 是 一 个 列 出 当前 系统 打开 的 文件 摘 述 符 的 工 
有 具 。 通 过 它 我 们 可 以 了 解 感 兴趣 的 进程 打开 了 哪些 文件 描述 符 ， 或 者 我 
们 感 兴趣 的 文件 描述 符 被 哪些 进程 打开 了 。 


lsof 命 令 常 用 的 选项 包括 : 


口 -i， 显 示 socket 文 件 描述 符 。 该 选项 的 使 用 方法 是 : 








$lsof-i[46] [protocol] [Ghostname|ipaddr] [:service|port] 





其 中 ，4 表 示 IPv4 协 议 ，6 表 示 IPv6 协 议 ，protocol 指 定 传输 层 协议 ， 
可 以 是 TCP 或 者 UDP; hostname 指 定 主机 名 ; ipaddr 指 定 主 机 的 卫 地 址 ; 
service 指 定 服务 名 ; port 指 定 端口 号 。 比 如 ， 要 显示 所 有 连接 到 主机 
192.168.1.108 的 ssh 服 务 的 socket 文 件 描述 符 ， 可 以 使 用 命令 : 





$lsof-i@192.168.1.108:22 











如 果 -i 选 项 后 不 指定 任何 参数 ， 则 1]sof 命 令 将 显示 所 有 socket 文 件 描 





D-u， 显 示 指 定 用 户 启动 的 所 有 进程 打开 的 所 有 文件 描述 符 。 





口 -c， 显 示 指 定 的 命令 打开 的 所 有 文件 描述 符 。 比 如 要 和 查看 websrv 
程序 打开 了 哪些 文件 描述 符 ， 可 以 使 用 如 下 命令 : 








Slsof-c websryv 





口 -p， 显 示 指 定 进程 打开 的 所 有 文件 描述 符 
仅 显示 打开 了 目标 文件 描述 符 的 进程 的 PID。 


我 们 还 可 以 直接 将 文件 名 作为 lsof 命 令 的 参数 ， 以 查看 哪些 进程 打 
开 了 该 文件 。 


下 面 介 绍 一 个 实例 : 查看 websrv 服 务 器 打开 了 哪些 文件 摘 述 符 。 具 
体操 作 如 代码 清单 17-1 所 示 。 


代码 清单 17-1 用 lsof 命 令 碍 看 websrv 服 务 器 打开 的 文件 描述 











Spbs-eflgreb websrv# 先 获取 websrv 程 序 的 进程 号 

shuang 6346 5439 0 23:41 pts/3 00:00:00./websrv 127.0.0.1 13579 

$sudo lsof-p 6346# 用 -p 选 项 指定 进程 号 

COMMAND PID USER FD TYPE DEVICE SIZE/OFF NODE NAME 

websrv 6346 shuang cwd DIR 8,3 4096 
1199520/home/shuang/codes/pool thread 

websrv 6346 shuang rtd DIR 8,3 4096 2/ 

websrv 6346 shuang txt REG 8,3 64817 
1199765/home/shuang/codes/pool thread/websrv 

websrv 6346 shuang mem REG 8,3 157200 1319677/1lib/1d-2.14.90.so 

websrv 6346 shuang mem REG 8,3 2000316 1319678/lib/libc-2.14.90.so 

websrv 6346 shuang mem REG 8,3 135556 1319682/1lib/libpthread- 
2.14.90.so 

websrv 6346 shuang mem REG 

websrv 6346 shuang mem REG 
20111027c80x 1 













































































3 208320 1319681/1lib/libm-2.14.90.so 
3 115376 1319685/1lib/libgcc s-4.6.2- 












































websrv 6346 shuang mem REG 8,3 948524 





























814873/usr/lib/libstdc++.so.6.0.16 
websrv 6346 shuang Ou CHR 136,3 0t0 6/dev/pts/3 
websrv 6346 shuang lu CHR 136,3 0t0 6/dev/pts/3 
websrv 6346 shuang 2u CHR 136,3 0t0 6/dev/pts/3 
websrv 6346 shuang 3u IPv4 43816 0t0 TCP localhost:13579 
websrv 6346 shuang 4u 0000 0,9 0 4447 anon inode 








lsof 命 令 的 输出 内 容 相当 丰富 ， 其 中 每 行内 容 都 包含 如 下 字段 : 





DCOMMAND， 执 行程 序 所 使 用 的 终端 命令 (默认 仪 显示 前 9 个 字 


符 
DPID， 文 件 摘 述 符 所 属 进程 的 PID。 
DUSER， 拥 有 该 文件 描述 符 的 用 户 的 用 户 名 。 


DFD， 文 件 描 述 符 的 描述 。 其 中 cwd 表 示 进 程 的 工作 目录 ，rtd 表 示 
用 户 的 根 目录 ，txt 表 示 进 程 运行 的 程序 代码 ，mem 表 示 直 接 映射 到 内 存 
中 的 文件 (本 例 中 都 是 动态 库 ) 。 有 的 FD 是 以 “数字 + 访问 权限 ”表示 
的 ， 其 中 数字 是 文件 描述 符 的 具体 数值 ， 访 问 权限 包括 r (可 读 )、 
w【〔 可 写 ) 和 u (可 读 可 写 ) 。 在 本 例 中 ，0u、1u、2u 分 别 表 示 标 准 输 
入 、 标 准 输出 和 标准 错误 输出 ; 3u 表 示 处 于 LISTEN 状 态 的 监听 socket; 
4u 表 示 epoll 内 核 事 件 表 对 应 的 文件 描述 符 。 








DTYPE， 文 件 描述 符 的 类 型 。 其 中 DIR 是 目录 ，REG 是 普通 文 
件 ，CHR 是 字符 设备 文件 ，IPv4 是 IPv4 类 型 的 socket 文 件 描述 符 ，0000 
是 未 知 类 型 。 更 多 文件 描述 符 的 类 型 请 参考 lsof 命 令 的 man 手 册 ， 这 里 





不 再 次 述 。 


DDEVICE， 文 件 所 属 设 备 。 对 于 字符 设备 和 块 设备 ， 其 表示 方法 
征 “ 主 设备 号 ， 次 设备 号 ”。 由 代码 清单 17-1 可 见 ， 测 试 机 器 上 的 程序 文 
件 和 动态 库 都 存放 在 设备 “8,3" 中 。 其 中 , “8” 表 示 这 是 一 个 SCSI 硬 
盘 ; “3” 表 示 这 是 该 硬盘 上 的 第 3 个 分 区 ， 即 sda3。websrv 程 序 的 标准 和 输 
入 、 标 准 输出 和 标准 错误 输出 对 应 的 设备 是 “136,3”。 其 中 ,，“136” 表 示 
这 是 一 个 伪 终 端 ;“3” 表 示 它 是 第 3 个 伪 终 端 ， 即 /dev/pts/3。 关 于 设备 编 
号 的 更 多 细节 ， 请 参考 文档 
http : //www.kernel.org/pub/linux/docs/lanana/device-list/devices-2.6.txt。 
对 于 FIFO 类 型 的 文件 ， 比 如 管道 和 socket， 该 字段 将 显示 一 个 内 核 引 用 
目标 文件 的 地 址 ， 或 者 是 其 i 节 点 号 











口 SIZE/OFF， 文 件 大 小 或 者 俩 移 值 。 如 果 该 字段 显示 为 “0t*? 或 
者 “0x*”， 就 表示 这 是 一 个 偏 移 值 ， 否 则 就 表示 这 是 一 个 文件 大 小 。 对 
字符 设备 或 者 FHIFO 类 型 的 文件 定义 文件 大 小 没有 意义 ， 所 以 该 字段 将 显 
示 一 个 侦 移 值 。 





DNODE， 文 件 的 i 节点 号 。 对 于 socket， 则 显示 为 协议 类 型 ， 比 
如 “TCP>”。 


DNAME， 文 件 的 名 字 。 


如 果 我 们 使 用 telnet 命 令 同 websrv 服 务 器 及 起 一 个 连接 ， 则 再 次 执行 


代码 清单 17-1 中 的 lsof 命 令 时 ， 其 输出 将 多 出 如 下 一 行 : 





websrv 6346 Shuand 5u 


localhost:48215( 





ESTAI 





BL 


IPv4 44288 0t0 TCP localhost:13579-> 











SHE 





D) 








该 输出 表示 服务 器 打开 了 一 个 IPv4 类 型 的 socket， 其 值 是 s， 且 它 处 
于 ESTABLISHED 状 态 。 该 socket 对 应 的 连接 的 本 端 socket 地 址 是 


(127.0.0.1，13579)， 远 端 socket 地 址 则 是 (127.0.0.1，48215)。 


17.3 nc 


nc (netcat) 命令 短小 精干 、 功 能 强大 ， 有 独 “ 瑞 士 军 刀 ” 的 美誉 。 
它 主 要 被 用 来 快速 构建 网 络 连接 。 我 们 可 以 让 它 以 服务 器 方式 运行 ， 监 
听 某 个 端口 并 接收 客户 连接 ， 因 此 它 可 用 来 调试 客户 端 程序 。 我 们 也 可 
以 使 之 以 客户 端 方式 运行 ， 回 服务 器 发 起 连接 并 收发 数据 ， 因 此 和 它 可 以 
用 来 调试 服务 器 程序 ， 此 时 它 有 点 像 telnet 程 序 。 


nc 命令 常用 的 选项 包括 : 
D-i， 设 置 数据 包 传送 的 时 间 间 陋 。 


口 -1， 以 服务 器 方式 运行 ， 监 听 指 定 的 端口 。nc 命 令 默 认 以 客户 端 


口 -k， 重 复 接受 并 处 理 某 个 端口 上 的 所 有 连接 ， 必 须 与 -] 选 项 一 起 


口 -n， 使 用 卫 地 址 表示 主机 ， 而 不 是 主机 名 ; 使 用 数字 表示 端口 
号 ， 而 不 是 服务 名 称 。 

口 -p， 当 nc 命令 以 客户 端 方式 运行 时 ， 强 制 其 使 用 指定 的 端口 号 。 
3.4.2 小 节 中 我 们 就 曾 使 用 过 该 选项 。 


DOD-s， 设 置 本 地 主机 发 送出 的 数据 包 的 IP 地 址 。 
口 -C， 将 CR 和 LE 两 个 字符 作为 行 结束 符 。 
口 -U， 使 用 UNIX 本 地 域 协议 通信 。 


口 -u， 使 用 UDP 协议 。nc 命 令 默 认 使 用 的 传输 层 协 议 是 TCP 协 议 。 





DD-w， 如 果 nc 和 客户 站 在 指定 的 时 间 内 未 检测 到 任何 输入 ， 则 退出 。 


口 -X， 当 nc 客户 端 和 代理 服务 器 通信 时 ， 该 选项 指定 它们 之 间 使 用 
的 通信 协议 。 目 前 nc 六 持 的 代理 协议 包括 “4”(SOCKS 
Vv.4) ，“5”(SOCKS v5) 和 “connect”(HTTPS proxy) 。nc 默 认 使 用 的 
代理 协议 是 SOCKS v.5。 


口 -x， 指 定 目 标 代理 服务 器 的 卫 地 址 和 端口 号 。 比 如 ， 要 从 
Kongming20 连 接 到 ernest-laptop 上 的 squid 代 理 服 务 器 ， 并 通过 它 来 访问 
www.baidu.com 的 Web 服 务 ， 可 以 使 用 如 下 命令 : 





$nc-x ernest-laptop:1080-X connect www.baidu.com 80 





口 -z， 扫 摘 目 标 机 器 上 的 某 个 或 某 些 服务 是 否 开 司 《端口 扫描 ) 。 
比如 ， 要 扫描 机 塔 ernest-laptop 上 端口 号 在 20 一 50 之 间 的 服务 ， 可 以 使 
用 如 下 命令 : 





$snc-z ernest-laptop 20-50 


举例 来 说 ， 我 们 可 以 使 用 如 下 方式 来 连接 websrv 服 务 器 并 同 它 发 送 
数据 : 





Snc-C 127.0.0.1 13579【〔 服 务 器 监听 端口 13579) 
GET http://localhost/a.html HTTP/1.1( 回 车 ) 
Host:localhost ( 回 车 ) 

( 回 车 ) 
HTTP/1.1 404 Not Found 

Content-Length:49 

Connection:close 

The requested file was not found on this server. 


























这 里 我 们 使 用 了 -C 选 项 ， 这 样 每 次 我 们 按 下 回 车 键 问 服务 器 友 送 一 
行 数据 时 ，nc 客 户 妆 程 序 都 会 给 服务 占 额 外 发 送 一 个 <CR>> <LF>， 
而 这 正 是 websrv 服 务 器 期 望 的 HTTP 行 结束 符 。 发 送 完 第 三 行 数据 之 
后 ， 我 们 得 到 了 服务 器 的 啊 应 ， 内 容 正 是 我 们 期 望 的 : 服务 器 没有 找到 
被 请 求 的 资源 文件 ahtml。 可 见 ，nc 命 令 是 一 个 很 方便 的 快速 测试 工 
有 具 ， 通 过 它 我 们 能 很 快 找 出 服务 器 的 逻辑 错误 。 








17.4 strace 








strace 是 测试 服务 器 性 能 的 重要 工具 。 它 跟踪 程序 运行 过 程 中 执行 
的 系统 调用 和 接收 到 的 信号 ， 并 将 系统 调用 名 、 参 数 、 返 回 值 及 信和 号 名 
输出 到 标准 输出 或 者 指定 的 文件 。 


strace 命 令 第 用 的 选项 包括 : 

口 -c， 统 计 每 个 系统 调用 执行 时 间 、 执 行 次 数 和 出 错 次 数 。 
口 -f{， 跟 踪 由 fork 调 用 生成 的 子 进程 。 

D-t， 在 输出 的 每 一 行 信息 前 加 上 时 间 信 息 。 


DQ-e， 指 定 一 个 表达 式 ， 用 来 控制 如 何 跟踪 系统 调用 (或 接收 到 的 
言 号 ， 下 同 )。 其 格式 是 : 





[qualifier=][!]jvaluel[,value2]...。 








qualifier 可 以 是 trace、abbrev、verbose、raw、signal、read 和 write 中 
之 一 ， 默 认 是 trace。value 是 用 于 进一步 限制 被 跟踪 的 系统 调用 的 符号 或 
数值 。 它 的 两 个 特殊 取 值 是 al 和 none， 分 别 表示 跟踪 所 有 由 qualifier 指 
定 类 型 的 系统 调用 和 不 跟踪 任何 该 类 型 的 系统 调用 。 关 于 value 的 其 他 取 
值 ， 我 们 简单 地 列举 一 些 : 


使-e trace=set， 只 跟踪 指定 的 系统 调用 。 例 如 ，-e trace=open， 
close，read，write 表 示 只 跟踪 open、close、read 和 write 这 四 种 系统 调 
用 。 


人 -etrace=file， 只 跟 踩 与 文件 操作 相关 的 系统 调用 。 
人 -etrace=process， 只 跟踪 与 进程 控制 相关 的 系统 调用 。 


令 -e trace=network， 只 跟踪 与 网 络 相 关 的 系统 调用 。 





令 -e trace=signal， 只 跟踪 与 信号 相关 的 系统 调用 。 


全 -etrace=ipc， 只 跟 躁 与 进程 间 通 信 相 关 的 系统 调用 。 





人 -esignal=set， 只 跟踪 指定 的 信号 。 比 如 ，-e signal=!SIGIO 表 示 跟 
踪 除 SIGIO 之 外 的 所 有 信号 。 


人 -eread=set， 输 出 从 指定 文件 中 读 入 的 数据 。 例 如 ，-eread=3，5 
表示 输出 所 有 从 文件 描述 符 3 和 5 读 入 的 数据 。 


口 -0o， 将 strace 的 输出 写 入 指定 的 文件 。 


strace 命 令 的 每 一 行 输出 都 包含 这 些 字 段 : 系统 调用 名 称 、 参 数 和 
返回 值 。 比 如 下 面 的 示例 : 





$strace cat/dev/null 
open("/dev/null",O RDONLY|O LARGE 














器 
Ea 
| 
(LAD 





这 行 输出 表示 : 程序 “cat/dev/null* 在 运行 过 程 中 执行 了 open 系 统 调 
用 。open 调 用 以 只 读 的 方式 打开 了 大 文件 /dev/null， 然 后 返回 了 一 个 值 
为 3 的 文件 描述 待 。 需 要 注意 的 是 ， 该 示例 命令 将 输出 很 多 内 容 ， 这 里 
我 们 省 略 了 很 多 次 要 的 信息 ， 在 后 面 的 实例 中 ， 我 们 也 仅 显示 主题 相关 
的 内 容 。 


当 系 统 调 用 发 生 错误 时 ，strace 命 令 将 输出 错误 标识 和 描述 ， 比 如 
下 面 的 示例 : 








$strace cat/foo/bar 
open("/foo/bar",O RDONLY|O LARGE 
directory) 


























ENOENT (No such file or 
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strace 命 令 对 不 同 的 参数 类 型 将 有 不 同 的 输出 方式 ， 比 如 : 


口 对 于 C 风 格 的 字符 串 ，strace 将 输出 字符 串 的 内 容 。 默 认 的 最 大 输 
出 长 度 是 32 字 节 ， 过 长 的 部 分 strace 会 使 用 “...” 省 略 。 比 如 ，]s-l 命 令 在 


运行 过 程 中 将 读 取 /etc/passwd 文 件 : 





$strace 1s-l1 
Fedd (4, "Foot> x 0 0rroot /rootr/bin/bash\n.,, .7A4096)=2342 





需要 注意 的 是 ， 文 件 名 并 不 被 strace 当 作 C 风 格 的 字符 串 ， 其 内 容 总 
是 被 完整 地 输出 。 


口 对 于 结构 体 ，strace 将 用 “{}” 输 出 该 结构 体 的 每 个 字段 ， 并 
用 “,” 将 每 个 字段 阳 开 。 对 于 字段 较 多 的 结构 体 ，strace 将 用 “...” 省 略 部 
分 输出 。 比如 : 








$strace ls-l/dev/null 
lstat64("/dev/null™", 
{st mode=S IFCHR|0666,st rdev=makedev(1,3),...})=0 














上 面 的 strace 输 出 显示 ，lstat64 系 统 调 用 的 第 1 个 参数 是 字符 串 输入 
参数 “devnull”;， 第 二 个 参数 则 是 stat 结 构 体 类 型 的 输出 参数 〈 指 针 ) ， 
strace 仅 显示 了 该 结构 体 参 数 的 两 个 字段 : st_ mode 和 st_rdev。 需 要 注意 


的 是 ， 当 系统 调用 失败 时 ， 和 输出 参数 将 显示 为 传 入 前 的 值 。 


口 对 于 位 集合 参数 《比如 信号 集 类 型 sigset_t) ，strace 将 用 “[]” 输 出 
该 集合 中 所 有 被 置 1 的 位 ， 并 用 空格 将 每 一 项 隔 开 。 假 设 某 个 程序 中 有 
如 下 代码 : 








sigset 七 set; 

sigemptyset (&set); 

sigaddset (&set,SIGQOUIT); 
sigaddset (&set,SIGUSR1); 
sigprocmask (SIG BLOCK, &set,NULL); 






































则 针对 该 程序 的 strace 命 令 将 输出 如 下 内 容 : 





rt sigprocmask (SIG BLOCK, [QUIT USR1],NULL,8)=0 

















针对 其 他 参数 类 型 的 输出 方式 ， 请 读者 参考 strace 的 man 手 册 ， 这 里 
不 再 袭 述 。 对 于 程序 接收 到 的 信号 ，strace 将 输出 该 信号 的 值 及 其 描 

。 比 如 ， 我 们 在 一 个 终端 上 运行 “sleep 100” 命 令 ， 然 后 在 另 一 个 终端 
上 使 用 strace 命 令 跟 踪 该 进程 ， 接 着 用 “Ctrlt+C” 终 止 “sleep 100? 进 程 以 观 
察 strace 的 输出 。 具 体操 作 如 下 : 





ssleep 100 
$sps-eflgrep sleep 
shuang 29127 29064 0 03:45 pts/7 00:00:00 sleep 100 
$strace-p 29127 
Process 29127 attached 
restart syscall(<...resuming interrupted call...>)=? 
ERESTART RESTARTBLOCK (Interrupted by signal) (此 时 用 ‘Ctrl+C” 中 汤 \sleep 
100” 进 程 》 
---SIGINT{si signo=SIGINT,si code=SI KERNEL}---— 
+++killed by SIGINT+++ 































































































下 面 考虑 一 个 使 用 strace 命 令 的 完整 、 具 体 的 例子 得 看 websrv 服 
务 嚣 在 处 理 客 户 连 接 和 数据 时 使 用 系统 调用 的 情况 。 其 体操 作 如 下 : 





Sy/vebsrv 127.0,0.1 13579 

$Sps-eflgrep websrv 

shuang 30526 29064 0 05:19 pts/7 00:00:00./websrv 127.0.0.1 13579 
$sudo strace-p 30526 

epoll wait (4， 








可 见 ， 服 务 器 当前 正在 执行 epoll_wait 系 统 调用 以 等 待 客户 请 求 。 
值得 注意 的 是 ，epollL_wait 的 第 一 个 参数 《标识 epol 内 核 事件 表 的 文件 
描述 符 ) 的 值 是 4， 这 和 前 面 lsof 命 令 的 输出 一 致 。 接 下 来 使 用 17.3 节 描 

述 的 方式 对 服务 器 发 起 一 个 连接 并 发 送 HTTP 请 求 ， 此 时 strace 命 令 的 输 








出 如 代码 清单 17-2 所 示 。 


代码 清单 17-2 ”strace 命 令 的 输出 








epoll wait (4,{{EPOLLIN, 
{u32=3,u64=4818348437277769731}}},10000,-1) 
accept (3, 
{sa family=AF INET,sin port=htons(41408),sin addr=inet addr ("127.0.0. 
[16])=5 
getsockopt (5, SOL SOCKET,SO ERROR, [0],[4])= 
setsockopt (5, SOL SOCKET,SO REUSEADDR, [1],4)=0 
epoll ctl(4,EPOLL CTL ADD,5, 
EPOLLIN |EPOLLRDHUP | EPOLLONESHOT |EPOLLET, 
uU32=5,u64=4818361493978349573}})=0 
fcnt164(5,F _ GETFL)=0x2 (flags O_RDWR) 
fcnt164(5, F SETFL,O RDWR | O NONBLOCK) =0 
epoll wait (4,{{EPOLLIN, 
{u32=5,u64=4818361493978349573}}},10000,-1)=1 
recv(5,"GET http://localhost/a.html HTTP"...,2048,0)=38 
recv(5,0xa601739e,2010,0)=-1 EAGAIN (Resource temporarily 
unavailable) 
futex (0x8ace034, FUTEX WAKE PRIVATE, 1)=1 
epoll wait (4, {{EPOLLIN, {u32= 5,u64=8589934597}}},10000, -1)=1 
recv(5,"Host:localhost\r\n",2010,0)=17 
recv(5,0xa60173af,1993,0)=-1 EAGAIN (Resource temporarily 
unavailable) 
futex (0x8ace034, FUTEX WAKE PRIVATE,1)=] 
epoll wait (4,{{EPOLLIN, {u32=5,u64=8589934597}}},10000,-1)=1 
recv(5,"\r\n",1993,0)=2 
recv(5,0xa60173bl,1991,0)=-1 EAGAIN (Resource temporarily 
unavailable) 
futex (0x8ace034, FUTEX WAKE PRIVATE,1)=] 
epoll wait (4, 1{{EPOLLOUT, {u32=5,u64=5}}},10000,-1)=1 
writev(5, [{"HTTP/1.1 404 Not Found\r\nContent-"...,114}],1)=114 
epoll ctl(4,EPOLL CTL MOD,5, 
EPOLLIN |EPOLLRDHUP | EPOLLONESHOT |EPOLLET, 
uU32=5,u64=11961983681754562565}})= 
epoll ctl(4,EPOLL CTL DEL,5,NULL)=0 
close (5)=0 
epoll wait (4, 
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上 面 的 输出 分 为 五 个 部 分 ， 我 们 用 空 行将 每 个 部 分 隔 开 。 


第 一 部 分 从 第 一 次 epoll_wait 系 统 调 用 开始 。 此 次 epoll_wait 调 用 检 
测 到 了 文件 描述 符 3 上 的 EPOLLIN 事 件 。 从 代码 清单 17-1 中 lsof 的 输出 来 
看 ， 文 件 描述 符 3 正 是 服务 器 的 监听 socket。 因 此 ， 这 个 事件 表示 有 新 客 
户 连 接 到 来 ， 于 是 websrv 服 务 器 对 监听 socket 执 行 了 accept 调 用 ，accept 
返回 一 个 新 的 连接 socket， 其 值 为 5。 接 着 ， 服 务 器 清除 这 个 新 socket 上 
的 错误 ， 设 置 其 SO_REUSEADDR 属 性 ， 然 后 往 epoll 内 核 事 件 表 中 注册 
该 socket 上 的 EPOLLRDHUP 和 EPOLLONESHOT 两 个 事件 ， 最 后 设置 新 
socket 为 非 阻塞 的 。 





第 二 部 分 从 第 二 次 epoll_wait 系 统 调用 开始 。 此 次 epoll_wait 调 用 检 
测 到 了 文件 描述 符 5 上 的 EPOLLIN 事 件 ， 这 表示 客户 端的 第 一 行 数据 到 
达 了 ， 于 是 服务 器 执行 了 两 次 recv 系 统 调用 来 接收 数据 。 第 一 次 recv 调 
用 读 取 到 38 字 节 的 客户 数据 ， 即 “GET http: //localhost/a.html 
HTTP/1.1n”。 第 二 次 recv 调 用 则 失败 了 ，errno 是 EAGAIN， 这 表示 目 
前 没有 更 多 的 客户 数据 可 读 。 此 后 ， 服 务 器 调用 了 futex 函 数 对 互 斥 锁 解 
锁 ， 以 唤醒 等 待 互 斥 锁 的 线程 。 可 见 ，POSIX 线 程 库 中 的 
pthread_mnutex_unlock 函 数 在 内 部 调用 了 futex 函 数 。 





第 三 、 四 部 分 的 内 容 和 第 二 部 分 类 似 ， 我 们 不 再 歼 述 。 


第 五 部 分 中 ，epoll_wait 调 用 检测 到 了 文件 描述 符 5 上 的 EPOLLOUT 
事件 ， 这 表示 工作 线程 正确 地 处 理 了 客户 请 求 ， 并 准备 好 了 待 发 送 的 数 
据 ， 因 此 主线 程 开 始 执行 writev 系 统 调用 往 客 户 端 写 入 HTTP 应 答 。 最 


后 ， 服 务 器 从 epoll 内 核 事件 表 中 移 除 文件 描述 等 5 上 的 所 有 注册 事件 ， 
并 关闭 该 文件 描述 符 。 


由 此 可 见 ，strace 命 令 使 我 们 能 够 清楚 地 得 看 每 次 系统 调用 发 生 的 
时 机 ， 以 及 相关 参数 的 值 ， 这 比 用 gdb 调 试 更 方便 。 


17.5 netstat 


netstat 古 一 个 功能 很 强大 的 网 络 信息 统计 工具 。 它 可 以 打印 本 地 网 
卡 接口 上 的 全 部 连接 、 路 由 表 信 息 、 网 卡 接口 信息 等 。 对 本 书 而 言 ， 我 
们 主要 利用 的 是 上 述 功 能 中 的 第 一 个 ， 即 显示 TCP 连 接 及 其 状态 信息 。 
毕竟 ， 要 获得 路 由 表 信 息 和 网 卡 接 口 信息 ， 我 们 可 以 使 用 输出 内 容 更 丰 


富 的 route 和 ifconfig 命 令 。 
netstat 命 令 第 用 的 选项 包括 : 


DD-n， 使 用 了 P 地 址 表示 主机 ， 而 不 是 主机 名 ; 使 用 数字 表示 端口 
号 ， 而 不 是 服务 名 称 


口 -a， 显 示 结 果 中 也 包含 监听 socket。 


口 -t， 仅 显示 TCP 连 接 。 


口 -r， 显 示 路 由 信息 。 





DD-i， 显 示 网 卡 接口 的 数据 流量 。 


口 -c， 每 隔 1 s 输 出 一 次 


口 -0o， 显 示 Ssocket 定 时 器 《〈 比 如 保 活 定时 器 ) 的 信息 。 


口 -p， 显 示 Socket 所 属 的 进程 的 PID 和 和 名字。 


下 面 我 们 运行 websrv 服 务 器 ， 并 执行 telnet 命 令 对 它 发 起 一 个 连接 请 
求 : 





$./websrv 127.0.0.1 13579& 
stelnet 127.0.0.1 13579 








然后 执行 命令 netstat-natlgrep 127.0.0.1:13579 查 看 连接 状态 ， 结 果 如 
































下 : 
Proto Recv-Q Send-Q Local Address Foreign Address State 
tom dy OTT 0 Qld3379 .0.000 LSTEN 
tep dy 0 2270 0 L13379 T1270 0 ds48220, ESTABLLSHED 
top 0 0 T270051348220 T2750505 L13579 ESTABLLSHED 









































由 以 上 结果 可 见 ，netstat 的 每 行 输 出 都 包含 如 下 6 个 字段 (默认 情 
1 元)〉: 


口 Proto， 协 议 名 。 


口 Recv-Q，socket 内 核 接收 缓冲 区 中 尚未 被 应 用 程序 读 取 的 数据 


和 


DSend-Q， 未 被 对 方 确认 的 数据 量 。 


口 Local Address， 本 端的 耳 地 址 和 端口 号 。 


DForeign Address， 对 方 的 卫 地 址 和 端口 号 。 


口 State，socket 的 状态 。 对 于 无 状态 协议 ， 比 如 UDP 协议 ， 这 一 字 
段 将 显示 为 空 。 而 对 面向 连接 的 协议 而 言 ，netstat 文 持 的 State 包 括 
ESTABLISHED、 SYN_SENT、 SYN_RCVD、 FIN_WAIT1.、 
FIN_WAIT2、 TIMFE_WAIT、 CLOSE、 CLOSE WAIT、 LAST_ACK.、 
LISTEN、CLOSING、UNKNOWN。 它 们 的 含义 和 图 3-8 中 的 同名 状态 
一 致 [1] 本 


上 面 的 输出 中 ， 第 1 行 表示 本 地 socket 地 址 127.0.0.1:13579 处 于 
LISTEN 状 态 ， 并 等 待 任何 远 端 socket (用 0.0.0.0:* 表 示 ) 对 它 发 起 连 
接 。 第 2 行 表示 服务 器 和 远 端 地 址 127.0.0.1:48220 建 立 了 一 个 连接 。 第 3 
行 只 是 从 客户 端的 角度 重复 输出 第 2 行 信息 表示 的 这 个 连接 ， 因 为 我 们 
是 在 同一 台 机 器 上 运行 服务 器 程序 (websrv) 和 客户 端 程序 (telnet) 
的 。 





在 服务 器 程序 开发 过 程 中 ， 我 们 一 定 要 确保 每 个 连接 在 任 一 时 刻 都 
处 于 我 们 期 望 的 状态 。 因 此 我 们 应 该 习惯 于 使 用 netstat 命 令 。 


[1] SYN_RCVD 和 CLOSE 分 别 对 应 图 3-8 中 的 SYN_RECV 和 CLOSED， 


UNKNOWN 表 示 未 知 状态 。 


17.6 vmstat 


vmstat 是 Vvirtual memory statistics 的 缩写 ， 它 能 实时 输出 系统 的 各 种 
资源 的 使 用 情况 ， 比 如 进程 信息 、 内 存 使 用 、CPU 使 用 率 以 及 IO 使 用 
情况 。 


vmstat 命 令 常 用 的 选项 和 参数 包括 : 


口 -f， 显 示 系 统 目 局 动 以 来 执行 的 fork 次 数 。 





口 -s， 显 示 内 存 相 关 的 统计 信息 以 及 多 种 系统 活动 的 数量 〈 比 如 
CPU 上 下 文 切换 次 数 ) 。 





口 -4， 显 示 破 盘 相 关 的 统计 信息 。 





口 -p， 显 示 指 定 磁 盘 分 区 的 统计 信息 。 
口 -S$， 使 用 指定 的 单位 来 显示 。 参 数 K、K、m、M 分 别 代表 1000、 


1024、1 000 000 和 1 048 576 字 节 。 


Ddelay， 采 样 间隔 (单位 是 s〉， 即 每 隔 delay 的 时 间 输 出 一 次 统计 
信息 


品 ,Do 


口 count， 采 样 次 数 ， 即 共 输 出 count 次 统计 信息 。 





默认 情况 下 ，vmstat 输 出 的 内 容 相当 丰富 。 请 看 下 面 的 示例 : 




















$vmstat 5 3# 每 隔 5 秒 输出 一 次 结果 ， 共 输出 3 次 

















rb swpd free buff cache si so bi bo in cs us sy id wa 
0 0 0 74864 48088 1486188 0 0 12 3 149 280 0 1 99 0 
1 00 66548 48088 1494640 0 000 454 619 0 0 990 
0 0 0 74608 48096 1486188 0 00 10 289 339 0 0 99 0 









































注意 ， 第 1 行 输出 是 目 系 统 司 动 以 来 的 平均 结果 ， 而 后 面 的 输出 则 
是 采样 间隔 内 的 平均 结果 。vmstat 的 每 条 和 输出 都 包含 6 个 字段 ， 它 们 的 合 


分 别 是 


> 


Dprocs， 进 程 信 息 。 “表示 等 竺 运行 的 进程 数目 ，“b” 表 示 处 于 不 
可 中 断 睡 眠 状态 的 进程 数目 。 





Dmemory， 内 存 信息 ， 各 项 的 单位 都 是 千 字 节 (KB) 。“swpd” 表 
示 虚 拟 内 存 的 使 用 数量 。“free” 表 示 空 闲 内 存 的 数量 。 “buff” 表 示 作 
为 “buffer cache” 的 内 存 数量 。 从 磁盘 读 入 的 数据 可 能 被 保持 在 “buffer 
cache” 中 ， 以 便 下 一 次 快速 访问 。“cache” 表 示 作 为 “page cache” 的 内 存 数 
量 。 待 写 入 磁盘 的 数据 将 首先 被 放 到 “page cache”* 中 ， 然 后 由 磁盘 中 断 
程序 写 入 磁盘 。 





口 swap， 交 换 分 区 《虚拟 内 存 ) 的 使 用 信息 ， 各 项 的 单位 都 是 
KB/s。 “si 表示 数据 由 磁盘 交换 至 内 存 的 速率 ; “so” 表 示 数 据 由 内 存 区 
换 至 磁盘 的 速率 。 如 果 这 两 个 值 经 常 发 生变 化 ， 则 说 明 内 存 不 足 。 


Dio， 块 设备 的 使 用 信息 ， 单 位 是 blocks。“bi 表 示 从 块 设备 恋 入 
块 的 速率 ; “bo” 表 示 同 块 设备 号 入 块 的 速率 。 


Dsystem， 系 统 信息 。“in” 表 示 每 秒 发 生 的 中 断 次 数 ; “cs” 表 示 每 秘 
发 生 的 上 下 文 切换 (进程 切换 ) 次 数 。 





Dcpu，CPU 使 用 信息 。“us” 表 示 系 统 所 有 进程 运行 在 用 户 空间 的 时 
间 占 CPU 总 运行 时 间 的 比例 ;“sy” 表 示 系 统 所 有 进程 运行 在 内 核 空间 的 
时 间 占 CPU 总 运行 时 间 的 比例 ;“id” 表 示 CPU 处 于 空闲 状态 的 时 间 占 
CPU 总 运行 时 间 的 比例 ;“wa” 表 示 CPU 等 待 WO 事 件 的 时 间 占 CPU 总 运 
行 时 间 的 比例 。 





不 过 ， 我 们 可 以 使 用 iostat 命 令 获得 磁盘 使 用 情况 的 更 多 信息 ， 也 可 
以 使 用 mpstat 获 得 CPU 使 用 情况 的 更 多 信息 。vmstat 命 令 主要 用 于 但 看 
系统 内 存 的 使 用 情况 。 


17.7 ifstat 


NN 
/ 
oO 





jifstat 是 interface statistics 的 缩写 ， 它 是 一 个 简单 的 网 络 流量 监测 工 
其 常用 的 选项 和 参数 包括 : 


口 -a， 监 测 系统 上 的 所 有 网 卡 接口 。 


D-i， 指 定 要 监测 的 网 卡 接口 。 


口 -t， 在 每 行 输出 信息 前 加 上 时 间 惟 。 





口 -b， 以 Kbits 为 单位 显示 数据 ， 而 不 是 默认 的 KB/s。 


Ddelay， 采 样 间隔 (单位 是 s〉， 即 每 隔 delay 的 时 间 输 出 一 次 统计 


口 count， 采 样 次 数 ， 即 共 输 出 count 次 统计 信息 。 


举例 来 说 ， 我 们 在 测试 机 器 ernest-laptop 上 执行 如 下 命令 


















































$ifstat-a 2 5# 每 隔 2 秒 输出 一 次 结果 ， 共 输出 5 次 
lo _ etho 

KB/s in KB/s out KB/s in KB/s out 

8.62 8.62 124.71 515.74 

1.46 了 .46 125.50 S510.30 

1.791.79 126.87 497.57 

a10 810 127582 526,13 

9.53 09,53 130.10 516,78 





从 输出 来 看 ，ernest-laptop 拥 有 两 个 网 卡 接 口 : 虚拟 的 回路 接口 lo 以 
及 以 太 网 网 卡 接口 eth0。ifstat 的 每 条 输出 都 以 KB/s 为 单位 显示 各 网 卡 接 
口上 接收 和 发 送 数据 的 速率 。 因 此 ， 使 用 ifstat 命 令 就 可 以 大 概 估计 各 个 
时 段 服务 器 的 总 输入 、 输 出 流量 。 


17.8 mpstat 


mpstat 是 multi-processor statistics 的 缩写 ， 它 能 实时 监测 多 处 理 器 系 
统 上 每 个 CPU 的 使 用 情况 。mpstat 命 令 和 iostat 命 令 通 常 都 集成 在 包 
sysstat 中 ， 安 装 sysstat 即 可 获得 这 两 个 命令 。mpstat 命 令 的 典型 用 法 是 


Cmpstat 命 令 的 选项 不 多 ， 这 里 不 再 专门 介绍 ) : 





mpstat[-P{|ALL}] [interval[count]l] 








选项 P 指 定 要 监控 的 CPU 写 《0~CPU 个 数 -1) ， 其 值 “ALL” 表 示 监 
听 所 有 的 CPU。interval 参 数 是 采样 间 隅 《单位 是 s) ， 即 每 隔 interval 的 
时 间 输 出 一 次 统计 信息 。count 参 数 是 采样 次 数 ， 即 共 输 出 count 次 统计 
信息 ， 但 mpstat 最 后 还 会 输出 这 count 次 采样 结果 的 平均 值 。 与 vmstat 命 
令 一 样 ，mpstat 命 令 输 出 的 第 一 次 结果 是 自 系统 启动 以 来 的 平均 结果 ， 
而 后 面 〈(count-1)〉 次 输出 结果 则 是 采样 间隔 内 的 平均 结果 。 





举例 来 说 ， 我 们 在 测试 机 器 Kongming20 上 执行 如 下 命令 : 








Smpstat-P ALL 5 2# 每 隔 5 秒 输出 一 次 结果 ， 共 输出 2 次 

Linux 3.3.0-4.fc16.1686(Kongming20)06/25/2012 i686 (2 CPU) 
CPUSusrsnice®Ssys$iowait®%irq%ssoft%$steal%Sguests$idle 

all 6.60 0.00 16.16 0.00 0.00 7.65 0.00 0.00 69.60 

0 5.00 0.00 13;20 0Q:00 0.00 7.20 0,00 0.00 74.60 

1 8.09 0.00 18.75 0.00 0.00 8.09 0.00 0.00 6€5.07 
CPUSusrsSnice®Ssyssiowait®%irq%ssoftS$steal%Sguests%$idle 

all 8.05 O000 19.08 0.00 0..00 8..05 0.00 0500 6€4..81 

0 5.81 0.00 16.83 0.00 0.00 8.42 0.00 0.00 68.94 




















1 10.24 0.00 17.02 0.00 0.00 7.86 0.00 0.00 60.88 
Average: 
CPUSuUSLrSnicegssysgsiowaitgsirdgssoftgsstealgsdguestsidqle 
a ad2 0a00 TTL 0s00. 02002 T8895. 000 .0.00 ;6743 
0 5.41 0.00 15.02 0.00 0.00 7.81 0.00 0.00 71.77 
LQ 000 L989 0.5.00"%0.800 7 9 O00 0% 00. “6062...9:7 














为 了 显示 的 方便 ， 我 们 省 略 了 每 行 输出 前 导 的 时 间 戳 。 每 次 采样 的 
和 输出 都 包含 3 条 信息 ， 每 条 信息 都 包含 如 下 几 个 字段 : 





DCPU， 指 示 该 条 信息 是 哪个 CPU 的 数据 。“0” 表 示 是 第 1 个 CPU 的 
数据 ，“1” 表 示 是 第 2 个 CPU 的 数据 ，“all* 则 表示 是 这 两 个 CPU 数 据 的 平 
均值 。 








DD%usr， 除 了 nice 值 为 负 的 进程 ， 系 统 上 其 他 进程 运行 在 用 户 空间 
的 时 间 占 CPU 总 运行 时 间 的 比例 。 





口 %onice，nice 值 为 负 的 进程 运行 在 用 户 空间 的 时 间 占 CPU 总 运行 时 
间 的 比例 。 


口 %sys， 系 统 上 所 有 进程 运行 在 内 核 空 间 的 时 间 占 CPU 总 运行 时 间 
的 比例 ， 但 不 包括 硬件 和 软件 中 断 消 耗 的 CPU 时 间 。 


口 %0iowait，CPU 等 待 磁盘 操作 的 时 间 占 CPU 总 运行 时 间 的 比例 。 


口 %irqd，CPU 用 于 处 理 硬 件 中 断 的 时 间 占 CPU 总 运行 时 间 的 比例 。 


口 %0soft，CPU 用 于 处 理 软件 中 断 的 时 间 占 CPU 总 运行 时 间 的 比 


口 %steal， 一 个 物理 CPU 可 以 包含 一 对 虚拟 CPU， 这 一 对 虚拟 CPU 
由 超级 管理 程序 管理 。 当 超级 管理 程序 在 处 理 某 个 虚拟 CPU 时 ， 另 外 一 
个 虚拟 CPU 则 必须 等 待 它 处 理 完 成 才能 运行 。 这 部 分 等 待 时 间 就 是 所 谓 
的 steal 时 间 。 该 字段 表示 steal 时 间 占 CPU 总 运行 时 间 的 比例 。 





口 %guest， 运 行 虚拟 CPU 的 时 间 占 CPU 总 运行 时 间 的 比例 。 
口 %idle， 系 统 空闲 的 时 间 占 CPU 总 运行 时 间 的 比例 。 


在 所 有 这 些 输出 字段 中 ， 我 们 最 关心 的 是 %user、%sys 和 %idle。 它 
们 基本 上 反映 了 我 们 的 代码 中 业务 逻辑 代码 和 系统 调用 所 占 的 比例 ， 以 
及 系统 还 能 承受 多 大 的 负载 。 很 显然 ， 在 上 面 的 输出 中 ， 执 行 系统 调用 
占用 的 CPU 时 间 比 执行 用 户 业 务 逻 辑 占用 的 CPU 时 间 要 多 。 这 是 因为 我 
们 在 该 机 器 上 运行 了 16.4 节 介绍 的 压力 测试 工具 ， 它 在 不 停 地 执行 
recv/send 系 统 调 用 来 收发 数据 。 
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